Fugu-MT 論文翻訳(概要): Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning

論文の概要: Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning

arxiv url: http://arxiv.org/abs/2305.14160v4
Date: Tue, 19 Dec 2023 15:13:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 12:40:11.004610
Title: Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning
Title（参考訳）: ラベル語はアンカーである:インコンテキスト学習を理解するための情報フロー視点
Authors: Lean Wang, Lei Li, Damai Dai, Deli Chen, Hao Zhou, Fandong Meng, Jie Zhou, Xu Sun
Abstract要約: 大規模言語モデル(LLM)の有望な能力としてインコンテキスト学習(ICL)が出現する本稿では,情報フローレンズを用いたICLの動作機構について検討する。本稿では,ICL性能向上のためのアンカー再重み付け手法,推論の高速化のための実演圧縮手法,GPT2-XLにおけるICLエラーの診断のための解析フレームワークを提案する。
参考スコア（独自算出の注目度）: 77.7070536959126
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In-context learning (ICL) emerges as a promising capability of large language models (LLMs) by providing them with demonstration examples to perform diverse tasks. However, the underlying mechanism of how LLMs learn from the provided context remains under-explored. In this paper, we investigate the working mechanism of ICL through an information flow lens. Our findings reveal that label words in the demonstration examples function as anchors: (1) semantic information aggregates into label word representations during the shallow computation layers' processing; (2) the consolidated information in label words serves as a reference for LLMs' final predictions. Based on these insights, we introduce an anchor re-weighting method to improve ICL performance, a demonstration compression technique to expedite inference, and an analysis framework for diagnosing ICL errors in GPT2-XL. The promising applications of our findings again validate the uncovered ICL working mechanism and pave the way for future studies.
Abstract（参考訳）: In-context Learning (ICL)は、大規模言語モデル(LLM)の有望な能力として出現し、多様なタスクを実行するための実例を提供する。しかしながら、llmが提供されたコンテキストからどのように学習するかのメカニズムは、まだ未検討のままである。本稿では,情報フローレンズを用いたICLの動作機構について検討する。その結果,(1)浅い計算層の処理中に意味情報がラベル語表現に集約され,(2)ラベル語に含まれる統合情報はllmsの最終予測の参照となることがわかった。これらの知見に基づき、iclの性能向上のためのアンカー再重み付け法、推論を迅速化するデモンストレーション圧縮法、gpt2-xlにおけるiclエラーの診断のための分析フレームワークを提案する。本研究の有望な応用は、未発見のICL作業機構を再び検証し、今後の研究の道を開くことである。

関連論文リスト

Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [50.53703102032562]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文参考訳（メタデータ） (2025-05-16T08:50:42Z)
Contextualize-then-Aggregate: Circuits for In-Context Learning in Gemma-2 2B [51.74607395697567]
In-Context Learning (ICL)は、大規模言語モデル(LLM)の興味深い能力である。我々は5つの自然主義ICLタスクに対してGemma-2 2Bにおける情報フローを因果介入を用いて同定する。このモデルでは,2段階戦略を用いてタスク情報を推論し,コンテキスト化-then-aggregateと呼ぶ。
論文参考訳（メタデータ） (2025-03-31T18:33:55Z)
Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding [71.01099784480597]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、様々なタスクで優れる In-Context Contrastive Decoding (ICCD)を導入する。 ICCDは、正と負のインコンテキストの例の出力分布を対比することで、入力ラベルマッピングを強調する。
論文参考訳（メタデータ） (2025-02-19T14:04:46Z)
PICLe: Pseudo-Annotations for In-Context Learning in Low-Resource Named Entity Detection [56.916656013563355]
In-context Learning (ICL)により、大規模言語モデルでは、デモをほとんど使わずにタスクを実行することができる。 PICLeは、ノイズの多い擬似アノテーション付き実演によるインコンテキスト学習のためのフレームワークである。バイオメディカルな5つのNEDデータセット上でPICLeを評価し,PICLeが低リソース環境でICLより優れていることを示す。
論文参考訳（メタデータ） (2024-12-16T16:09:35Z)
Revisiting In-context Learning Inference Circuit in Large Language Models [2.4866936275046405]
In-context Learning (ICL) は、言語モデル(LM)の内的メカニズムを探索せずに学習する、新たな数発学習パラダイムである。本稿では、推論力学をモデル化し、ICLの観測現象を説明するための包括的回路を提案する。
論文参考訳（メタデータ） (2024-10-06T12:50:15Z)
Implicit In-context Learning [37.0562059811099]
In-context Learning (ICL)は、大規模な言語モデルに対して、テストクエリの前にいくつかの実演例をプレフィックスすることで、推論中に目に見えないタスクに適応する権限を与える。 Inlicit In-context Learning (I2CL)は、従来のICLにまつわる課題に、アクティベーション空間内の実演例を吸収することで対処する革新的なパラダイムである。 I2CLは、ゼロショットコストで数ショットのパフォーマンスを達成し、デモ例のバリエーションに対して堅牢性を示す。
論文参考訳（メタデータ） (2024-05-23T14:57:52Z)
Does In-Context Learning Really Learn? Rethinking How Large Language Models Respond and Solve Tasks via In-Context Learning [41.606494950216764]
In-context Learning (ICL)は、スケールアップされた大規模言語モデル(LLM)の開発と共に強力な能力として登場した。本稿では,ICLの全体的な性能をラベル空間,フォーマット,識別の3次元に分解する。 ICLはラベル空間とフォーマットを制御し,所望のラベル語にLLMが反応するのに役立つことを示す。
論文参考訳（メタデータ） (2024-04-11T08:20:10Z)
Rectifying Demonstration Shortcut in In-Context Learning [15.08431909212102]
大規模言語モデル(LLM)は、ICL(In-context Learning)能力を利用したいくつかのデモで、様々なタスクを解くことができる。 LLMは、ICL予測を進めるために、インプット-ラベル関係よりも、事前に訓練されたデモのセマンティック先行に頼っていることが多い。
論文参考訳（メタデータ） (2024-03-14T15:30:14Z)
C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-02-17T11:28:08Z)
In-Context Exemplars as Clues to Retrieving from Large Associative Memory [1.2952137350423816]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)がトレーニングなしでインコンテキストの例からパターンを学習することを可能にする。文脈内学習の仕組みの理解が欠如しているため、模範をどう選ぶかはいまだ不明である。本研究は、メモリ検索に接続することで、ICLのメカニズムに新たな光を当てる。
論文参考訳（メタデータ） (2023-11-06T20:13:29Z)
Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-11-03T14:39:20Z)
Improving Input-label Mapping with Demonstration Replay for In-context Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。 Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。 ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文参考訳（メタデータ） (2023-10-30T14:29:41Z)
Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文参考訳（メタデータ） (2023-05-22T13:18:17Z)
Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。 ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文参考訳（メタデータ） (2023-05-22T06:45:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。