論文の概要: In-Context Learning in Large Language Models: A Neuroscience-inspired
Analysis of Representations
- arxiv url: http://arxiv.org/abs/2310.00313v2
- Date: Wed, 18 Oct 2023 08:53:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 19:19:32.029590
- Title: In-Context Learning in Large Language Models: A Neuroscience-inspired
Analysis of Representations
- Title(参考訳): 大規模言語モデルにおけるインテクスト学習 : 表現の神経科学による分析
- Authors: Safoora Yousefi, Leo Betthauser, Hosein Hasanbeig, Akanksha Saran,
Rapha\"el Milli\`ere, Ida Momennejad
- Abstract要約: 大規模言語モデル(LLM)は、文脈内学習(ICL)による顕著な性能向上を示す
インコンテキストラーニング後の埋め込みと注意がどのように変化するか、そしてこれらの変化が行動改善の媒介となるかを検討する。
- 参考スコア(独自算出の注目度): 5.97388782528814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit remarkable performance improvement
through in-context learning (ICL) by leveraging task-specific examples in the
input. However, the mechanisms behind this improvement remain elusive. In this
work, we investigate embeddings and attention representations in Llama-2 70B
and Vicuna 13B. Specifically, we study how embeddings and attention change
after in-context-learning, and how these changes mediate improvement in
behavior. We employ neuroscience-inspired techniques, such as representational
similarity analysis (RSA), and propose novel methods for parameterized probing
and attention ratio analysis (ARA, measuring the ratio of attention to relevant
vs. irrelevant information). We designed three tasks with a priori
relationships among their conditions: reading comprehension, linear regression,
and adversarial prompt injection. We formed hypotheses about expected
similarities in task representations to investigate latent changes in
embeddings and attention. Our analyses revealed a meaningful correlation
between changes in both embeddings and attention representations with
improvements in behavioral performance after ICL. This empirical framework
empowers a nuanced understanding of how latent representations affect LLM
behavior with and without ICL, offering valuable tools and insights for future
research and practical applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)により、入力中のタスク固有の例を活用することにより、顕著なパフォーマンス向上を示す。
しかし、この改善のメカニズムはいまだ解明されていない。
本研究では,Llama-270BとVicuna 13Bの埋め込みと注意表現について検討する。
具体的には、コンテキスト内学習後の埋め込みと注意がどのように変化するか、そしてこれらの変化が行動改善の媒介となるかを検討する。
我々は,表現類似性分析(RSA)などの神経科学に触発された手法を採用し,パラメータ化探索と注意比率分析(ARA)のための新しい手法を提案する。
本研究は,3つの条件,すなわち読解理解,線形回帰,対向的プロンプトインジェクションの3つのタスクを設計した。
埋め込みや注意の潜伏変化を調べるために,タスク表現における期待される類似性について仮説を立てた。
ICL後の行動特性の改善とともに,埋め込みと注意表現の両方の変化に有意な相関が認められた。
この実証的なフレームワークは、潜伏表現がICLの有無にかかわらずLLMの振る舞いにどのように影響するかを微妙に理解し、将来の研究や実用化に有用なツールと洞察を提供する。
関連論文リスト
- Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting [40.78026627009521]
強化学習(Reinforcement Learning、RL)は、大規模言語モデル(LLM)知識を逐次意思決定タスクと整合させるための有望なアプローチである。
テキスト環境下でのRL学習後の定式化を促進するために,LLMの感度を解析するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T18:25:35Z) - Learning vs Retrieval: The Role of In-Context Examples in Regression with LLMs [18.983753573277596]
そこで本研究では,内部知識の獲得と学習を併用した,文脈内学習機構の評価フレームワークを提案する。
まず、LLMが実世界のデータセット上で回帰処理を行い、LLMが内部知識を取得する範囲を計測する実験を設計できることを示す。
本稿では,これらのメカニズムが様々な要因によって引き起こされる度合いを詳細に分析する。
論文 参考訳(メタデータ) (2024-09-06T14:46:37Z) - Semantic Change Characterization with LLMs using Rhetorics [0.1474723404975345]
本研究では,LLMが3種類の意味変化(思考,関係,方向)を特徴づける可能性について検討する。
本結果は,意味的変化の捕捉と解析におけるLLMの有効性を強調し,計算言語応用を改善する上で有用な洞察を提供するものである。
論文 参考訳(メタデータ) (2024-07-23T16:32:49Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Label Words are Anchors: An Information Flow Perspective for
Understanding In-Context Learning [77.7070536959126]
大規模言語モデル(LLM)の有望な能力としてインコンテキスト学習(ICL)が出現する
本稿では,情報フローレンズを用いたICLの動作機構について検討する。
本稿では,ICL性能向上のためのアンカー再重み付け手法,推論の高速化のための実演圧縮手法,GPT2-XLにおけるICLエラーの診断のための解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T15:26:20Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文 参考訳(メタデータ) (2023-03-01T08:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。