論文の概要: Label Words are Anchors: An Information Flow Perspective for
Understanding In-Context Learning
- arxiv url: http://arxiv.org/abs/2305.14160v4
- Date: Tue, 19 Dec 2023 15:13:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 12:40:11.004610
- Title: Label Words are Anchors: An Information Flow Perspective for
Understanding In-Context Learning
- Title(参考訳): ラベル語はアンカーである:インコンテキスト学習を理解するための情報フロー視点
- Authors: Lean Wang, Lei Li, Damai Dai, Deli Chen, Hao Zhou, Fandong Meng, Jie
Zhou, Xu Sun
- Abstract要約: 大規模言語モデル(LLM)の有望な能力としてインコンテキスト学習(ICL)が出現する
本稿では,情報フローレンズを用いたICLの動作機構について検討する。
本稿では,ICL性能向上のためのアンカー再重み付け手法,推論の高速化のための実演圧縮手法,GPT2-XLにおけるICLエラーの診断のための解析フレームワークを提案する。
- 参考スコア(独自算出の注目度): 77.7070536959126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) emerges as a promising capability of large language
models (LLMs) by providing them with demonstration examples to perform diverse
tasks. However, the underlying mechanism of how LLMs learn from the provided
context remains under-explored. In this paper, we investigate the working
mechanism of ICL through an information flow lens. Our findings reveal that
label words in the demonstration examples function as anchors: (1) semantic
information aggregates into label word representations during the shallow
computation layers' processing; (2) the consolidated information in label words
serves as a reference for LLMs' final predictions. Based on these insights, we
introduce an anchor re-weighting method to improve ICL performance, a
demonstration compression technique to expedite inference, and an analysis
framework for diagnosing ICL errors in GPT2-XL. The promising applications of
our findings again validate the uncovered ICL working mechanism and pave the
way for future studies.
- Abstract(参考訳): In-context Learning (ICL)は、大規模言語モデル(LLM)の有望な能力として出現し、多様なタスクを実行するための実例を提供する。
しかしながら、llmが提供されたコンテキストからどのように学習するかのメカニズムは、まだ未検討のままである。
本稿では,情報フローレンズを用いたICLの動作機構について検討する。
その結果,(1)浅い計算層の処理中に意味情報がラベル語表現に集約され,(2)ラベル語に含まれる統合情報はllmsの最終予測の参照となることがわかった。
これらの知見に基づき、iclの性能向上のためのアンカー再重み付け法、推論を迅速化するデモンストレーション圧縮法、gpt2-xlにおけるiclエラーの診断のための分析フレームワークを提案する。
本研究の有望な応用は、未発見のICL作業機構を再び検証し、今後の研究の道を開くことである。
関連論文リスト
- Rectifying Demonstration Shortcut in In-Context Learning [15.08431909212102]
大規模言語モデル(LLM)は、ICL(In-context Learning)能力を利用したいくつかのデモで、様々なタスクを解くことができる。
LLMは、ICL予測を進めるために、インプット-ラベル関係よりも、事前に訓練されたデモのセマンティック先行に頼っていることが多い。
論文 参考訳(メタデータ) (2024-03-14T15:30:14Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [64.33702161898469]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - In-Context Exemplars as Clues to Retrieving from Large Associative
Memory [1.2952137350423816]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)がトレーニングなしでインコンテキストの例からパターンを学習することを可能にする。
文脈内学習の仕組みの理解が欠如しているため、模範をどう選ぶかはいまだ不明である。
本研究は、メモリ検索に接続することで、ICLのメカニズムに新たな光を当てる。
論文 参考訳(メタデータ) (2023-11-06T20:13:29Z) - Hint-enhanced In-Context Learning wakes Large Language Models up for
knowledge-intensive tasks [56.8695016800117]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。
我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:39:20Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Decoding In-Context Learning: Neuroscience-inspired Analysis of
Representations in Large Language Models [5.062236259068678]
In-context Learning (ICL) による大規模言語モデル(LLM)の性能向上について検討する。
本稿では,Llama-270BとVicuna 13Bのパラメータ化探索と,関連する情報と無関係情報に対する注意度の測定方法を提案する。
ICL後の行動改善とLLM層間の埋め込みと注意重みの変化との間に有意な相関が認められた。
論文 参考訳(メタデータ) (2023-09-30T09:01:35Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - What In-Context Learning "Learns" In-Context: Disentangling Task
Recognition and Task Learning [24.395288160951118]
大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。
ICLがデモを利用する2つの方法の特徴付けを行う。
TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことを示す。
論文 参考訳(メタデータ) (2023-05-16T18:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。