論文の概要: Exploring the Learning Capabilities of Language Models using LEVERWORLDS
- arxiv url: http://arxiv.org/abs/2410.00519v1
- Date: Tue, 1 Oct 2024 09:02:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 05:07:10.039684
- Title: Exploring the Learning Capabilities of Language Models using LEVERWORLDS
- Title(参考訳): LEVERWORLDSを用いた言語モデルの学習能力の探索
- Authors: Eitan Wagner, Amir Feder, Omri Abend,
- Abstract要約: 設定のモデルを学ぶには、一般的な構造ルールとインスタンスの特定の特性の両方を学ぶ必要がある。
本稿では,様々な学習方法における一般学習と特定学習の相互作用について,サンプル効率に着目して検討する。
- 参考スコア(独自算出の注目度): 23.40759867281453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning a model of a stochastic setting often involves learning both general structure rules and specific properties of the instance. This paper investigates the interplay between learning the general and the specific in various learning methods, with emphasis on sample efficiency. We design a framework called {\sc LeverWorlds}, which allows the generation of simple physics-inspired worlds that follow a similar generative process with different distributions, and their instances can be expressed in natural language. These worlds allow for controlled experiments to assess the sample complexity of different learning methods. We experiment with classic learning algorithms as well as Transformer language models, both with fine-tuning and In-Context Learning (ICL). Our general finding is that (1) Transformers generally succeed in the task; but (2) they are considerably less sample efficient than classic methods that make stronger assumptions about the structure, such as Maximum Likelihood Estimation and Logistic Regression. This finding is in tension with the recent tendency to use Transformers as general-purpose estimators. We propose an approach that leverages the ICL capabilities of contemporary language models to apply simple algorithms for this type of data. Our experiments show that models currently struggle with the task but show promising potential.
- Abstract(参考訳): 確率的セッティングのモデルを学ぶには、多くの場合、一般的な構造規則とインスタンスの特定の性質の両方を学ぶ必要がある。
本稿では,様々な学習方法における一般学習と特定学習の相互作用について,サンプル効率に着目して検討する。
我々は、異なる分布を持つ同様の生成過程に従う単純な物理に着想を得た世界を生成できるフレームワーク {\sc LeverWorlds} を設計し、それらのインスタンスを自然言語で表現できる。
これらの世界は、異なる学習方法のサンプルの複雑さを評価するための制御された実験を可能にする。
我々は古典的な学習アルゴリズムとトランスフォーマー言語モデルで実験を行い、微調整とインコンテキスト学習(ICL)を併用した。
我々の一般的な発見は,(1)トランスフォーマーは一般的にタスクを成功させるが,(2)最大様相推定やロジスティック回帰といった構造についてより強い仮定を行う古典的手法に比べて,サンプル効率がかなり低いことである。
この発見は、トランスフォーマーを汎用的推定器として利用する最近の傾向と緊張関係にある。
本稿では、現代言語モデルのICL機能を活用して、このタイプのデータに単純なアルゴリズムを適用するアプローチを提案する。
我々の実験は、現在この課題に苦戦しているが、有望な可能性を示していることを示している。
関連論文リスト
- In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Is neural language acquisition similar to natural? A chronological
probing study [0.0515648410037406]
本稿では,MultiBERTやT5といったトランスフォーマー英語モデルの時系列探索について述べる。
コーパスの学習過程において,モデルが学習した言語に関する情報を比較した。
その結果,1)訓練の初期段階に言語情報を取得すること,2)両言語モデルが様々な言語レベルから様々な特徴を捉える能力を示した。
論文 参考訳(メタデータ) (2022-07-01T17:24:11Z) - Lifelong Learning Natural Language Processing Approach for Multilingual
Data Classification [1.3999481573773074]
複数の言語で偽ニュースを検知できる生涯学習型アプローチを提案する。
解析された言語間で得られた知識を一般化するモデルの能力も観察された。
論文 参考訳(メタデータ) (2022-05-25T10:34:04Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - CoLLIE: Continual Learning of Language Grounding from Language-Image
Embeddings [2.8478710949588284]
CoLLIEは、言語がどのように視覚に根ざされているかの継続的な学習のモデルである。
新しい言語の使用に対応するために必要な言語埋め込みを調整する変換関数を学習する。
ごく少数の例から,CoLLIEが効率的に学習し,一般化できることが示される。
論文 参考訳(メタデータ) (2021-11-15T18:54:58Z) - Systematic Generalization on gSCAN with Language Conditioned Embedding [19.39687991647301]
体系的一般化とは、学習アルゴリズムが学習した振る舞いを目に見えない状況に外挿する能力を指す。
本稿では,入力自然言語を条件とした動的メッセージパッシングによるオブジェクトの文脈的埋め込みを学習する手法を提案する。
論文 参考訳(メタデータ) (2020-09-11T17:35:05Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。