論文の概要: Distributed Rule Vectors is A Key Mechanism in Large Language Models' In-Context Learning
- arxiv url: http://arxiv.org/abs/2406.16007v1
- Date: Sun, 23 Jun 2024 04:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 19:23:47.326993
- Title: Distributed Rule Vectors is A Key Mechanism in Large Language Models' In-Context Learning
- Title(参考訳): 分散ルールベクトルは、大規模言語モデルの文脈学習における鍵となるメカニズムである
- Authors: Bowen Zheng, Ming Ma, Zhongqiao Lin, Tianming Yang,
- Abstract要約: 大規模言語モデル(LLM)は目覚ましい能力を示しており、最も重要なものはインコンテキスト学習(ICL)である。
以前の研究は、ICL中に特定の位置でネットワークが「タスクベクトル」を生成すると仮定していた。
このような「タスクベクトル」は、ルールを複数の実演を通して定義しなければならないタスクには存在しないことが判明した。
- 参考スコア(独自算出の注目度): 3.1775609005777024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable abilities, one of the most important being In-Context Learning (ICL). With ICL, LLMs can derive the underlying rule from a few demonstrations and provide answers that comply with the rule. Previous work hypothesized that the network creates a "task vector" in specific positions during ICL. Patching the "task vector" allows LLMs to achieve zero-shot performance similar to few-shot learning. However, we discover that such "task vectors" do not exist in tasks where the rule has to be defined through multiple demonstrations. Instead, the rule information provided by each demonstration is first transmitted to its answer position and forms its own rule vector. Importantly, all the rule vectors contribute to the output in a distributed manner. We further show that the rule vectors encode a high-level abstraction of rules extracted from the demonstrations. These results are further validated in a series of tasks that rely on rules dependent on multiple demonstrations. Our study provides novel insights into the mechanism underlying ICL in LLMs, demonstrating how ICL may be achieved through an information aggregation mechanism.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい能力を示しており、最も重要なものはインコンテキスト学習(ICL)である。
ICLでは、LCMはいくつかのデモから基礎となるルールを導出し、ルールに準拠した回答を提供することができる。
以前の研究は、ICL中に特定の位置でネットワークが「タスクベクトル」を生成すると仮定していた。
タスクベクター」をパッチすることで、LLMは少数ショット学習と同様、ゼロショットのパフォーマンスを達成できる。
しかし、このような「タスクベクトル」は、ルールを複数の実演を通して定義しなければならないタスクには存在しないことが判明した。
代わりに、各デモンストレーションによって提供されるルール情報は、まずその回答位置に送信され、独自のルールベクトルを形成する。
重要なことに、すべてのルールベクトルが分散的に出力に寄与する。
さらに、ルールベクトルは、デモから抽出されたルールの高レベルな抽象化を符号化していることを示す。
これらの結果は、複数のデモンストレーションに依存するルールに依存する一連のタスクでさらに検証される。
本研究は,情報集約機構によってICLが達成される可能性を示す,LCMにおけるICLの基盤となるメカニズムに関する新たな知見を提供する。
関連論文リスト
- Vector-ICL: In-context Learning with Continuous Vector Representations [75.96920867382859]
大規模言語モデル (LLM) はテキストデータに顕著なコンテキスト内学習能力を示す。
ブラックボックス事前学習エンコーダから得られる様々な領域から連続ベクトルに拡張できるかどうかを検討する。
特に,汎用言語モデリング目的のプロジェクタを事前学習することで,Vector-ICLの実現が期待できる。
論文 参考訳(メタデータ) (2024-10-08T02:25:38Z) - What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する
一般的な仮説の一つは、タスク選択によるICLの説明である。
もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文 参考訳(メタデータ) (2024-06-06T16:15:34Z) - Show, Don't Tell: Aligning Language Models with Demonstrated Feedback [54.10302745921713]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Implicit In-context Learning [37.0562059811099]
In-context Learning (ICL)は、大規模な言語モデルに対して、テストクエリの前にいくつかの実演例をプレフィックスすることで、推論中に目に見えないタスクに適応する権限を与える。
Inlicit In-context Learning (I2CL)は、従来のICLにまつわる課題に、アクティベーション空間内の実演例を吸収することで対処する革新的なパラダイムである。
I2CLは、ゼロショットコストで数ショットのパフォーマンスを達成し、デモ例のバリエーションに対して堅牢性を示す。
論文 参考訳(メタデータ) (2024-05-23T14:57:52Z) - In-context Vectors: Making In Context Learning More Effective and
Controllable Through Latent Space Steering [37.334374583093165]
大規模言語モデル(LLM)は、コンテキスト内学習能力の出現を示す。
In-context vectors (ICV) としてコンテキスト内学習をリキャストする代替手法を提案する。
ICVは、標準のコンテキスト内学習よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-11T21:19:44Z) - Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。
我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:39:20Z) - Ambiguity-Aware In-Context Learning with Large Language Models [27.20414960164616]
インコンテキスト学習(ICL)、すなわち、LLMのタスク固有のデモは、タスク固有の微調整を必要とせず、ダウンストリームのゲインにつながった。
そこで本研究では,ICLの優れた実演方法について検討する。
セマンティックに類似したICLのデモンストレーションを選択するだけでなく、テスト例を取り巻く固有のラベルの曖昧さを解決するのに役立つものを選択することは有益である。
論文 参考訳(メタデータ) (2023-09-14T17:48:34Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - What In-Context Learning "Learns" In-Context: Disentangling Task
Recognition and Task Learning [24.395288160951118]
大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。
ICLがデモを利用する2つの方法の特徴付けを行う。
TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことを示す。
論文 参考訳(メタデータ) (2023-05-16T18:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。