論文の概要: Decoding In-Context Learning: Neuroscience-inspired Analysis of
Representations in Large Language Models
- arxiv url: http://arxiv.org/abs/2310.00313v4
- Date: Wed, 21 Feb 2024 19:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 18:42:16.833931
- Title: Decoding In-Context Learning: Neuroscience-inspired Analysis of
Representations in Large Language Models
- Title(参考訳): 文脈内学習のデコード:大言語モデルにおける表現の神経科学による分析
- Authors: Safoora Yousefi, Leo Betthauser, Hosein Hasanbeig, Rapha\"el
Milli\`ere, Ida Momennejad
- Abstract要約: In-context Learning (ICL) による大規模言語モデル(LLM)の性能向上について検討する。
本稿では,Llama-270BとVicuna 13Bのパラメータ化探索と,関連する情報と無関係情報に対する注意度の測定方法を提案する。
ICL後の行動改善とLLM層間の埋め込みと注意重みの変化との間に有意な相関が認められた。
- 参考スコア(独自算出の注目度): 5.062236259068678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit remarkable performance improvement
through in-context learning (ICL) by leveraging task-specific examples in the
input. However, the mechanisms behind this improvement remain elusive. In this
work, we investigate how LLM embeddings and attention representations change
following in-context-learning, and how these changes mediate improvement in
behavior. We employ neuroscience-inspired techniques such as representational
similarity analysis (RSA) and propose novel methods for parameterized probing
and measuring ratio of attention to relevant vs. irrelevant information in
Llama-2 70B and Vicuna 13B. We designed two tasks with a priori relationships
among their conditions: linear regression and reading comprehension. We formed
hypotheses about expected similarities in task representations and measured
hypothesis alignment of LLM representations before and after ICL as well as
changes in attention. Our analyses revealed a meaningful correlation between
improvements in behavior after ICL and changes in both embeddings and attention
weights across LLM layers. This empirical framework empowers a nuanced
understanding of how latent representations shape LLM behavior, offering
valuable tools and insights for future research and practical applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)により、入力中のタスク固有の例を活用することにより、顕著なパフォーマンス向上を示す。
しかし、この改善のメカニズムはいまだ解明されていない。
本研究では,llm埋め込みとアテンション表現が文脈内学習によってどのように変化し,これらの変化が行動改善を媒介するかについて検討する。
我々は,表現類似度分析(RSA)などの神経科学に触発された手法を採用し,Llama-270BとVicuna 13Bのパラメータ化探索と,関連情報に対する注意度測定のための新しい手法を提案する。
線形回帰と読み解きという2つの条件の事前関係を持つタスクを設計した。
タスク表現における期待される類似性や,ICL前後におけるLCM表現の仮説アライメント,注目度の変化について仮説を立てた。
ICL後の行動改善とLLM層間の埋め込みと注意重みの変化との間に有意な相関が認められた。
この経験的なフレームワークは、潜在表現がどのようにLCMの振る舞いを形作るかという微妙な理解を促進し、将来の研究や実用化に有用なツールや洞察を提供する。
関連論文リスト
- Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting [40.78026627009521]
強化学習(Reinforcement Learning、RL)は、大規模言語モデル(LLM)知識を逐次意思決定タスクと整合させるための有望なアプローチである。
テキスト環境下でのRL学習後の定式化を促進するために,LLMの感度を解析するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T18:25:35Z) - Learning vs Retrieval: The Role of In-Context Examples in Regression with LLMs [18.983753573277596]
そこで本研究では,内部知識の獲得と学習を併用した,文脈内学習機構の評価フレームワークを提案する。
まず、LLMが実世界のデータセット上で回帰処理を行い、LLMが内部知識を取得する範囲を計測する実験を設計できることを示す。
本稿では,これらのメカニズムが様々な要因によって引き起こされる度合いを詳細に分析する。
論文 参考訳(メタデータ) (2024-09-06T14:46:37Z) - Semantic Change Characterization with LLMs using Rhetorics [0.1474723404975345]
本研究では,LLMが3種類の意味変化(思考,関係,方向)を特徴づける可能性について検討する。
本結果は,意味的変化の捕捉と解析におけるLLMの有効性を強調し,計算言語応用を改善する上で有用な洞察を提供するものである。
論文 参考訳(メタデータ) (2024-07-23T16:32:49Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Label Words are Anchors: An Information Flow Perspective for
Understanding In-Context Learning [77.7070536959126]
大規模言語モデル(LLM)の有望な能力としてインコンテキスト学習(ICL)が出現する
本稿では,情報フローレンズを用いたICLの動作機構について検討する。
本稿では,ICL性能向上のためのアンカー再重み付け手法,推論の高速化のための実演圧縮手法,GPT2-XLにおけるICLエラーの診断のための解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T15:26:20Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文 参考訳(メタデータ) (2023-03-01T08:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。