論文の概要: In-Context Learning in Large Language Models: A Neuroscience-inspired
Analysis of Representations
- arxiv url: http://arxiv.org/abs/2310.00313v2
- Date: Wed, 18 Oct 2023 08:53:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 19:19:32.029590
- Title: In-Context Learning in Large Language Models: A Neuroscience-inspired
Analysis of Representations
- Title(参考訳): 大規模言語モデルにおけるインテクスト学習 : 表現の神経科学による分析
- Authors: Safoora Yousefi, Leo Betthauser, Hosein Hasanbeig, Akanksha Saran,
Rapha\"el Milli\`ere, Ida Momennejad
- Abstract要約: 大規模言語モデル(LLM)は、文脈内学習(ICL)による顕著な性能向上を示す
インコンテキストラーニング後の埋め込みと注意がどのように変化するか、そしてこれらの変化が行動改善の媒介となるかを検討する。
- 参考スコア(独自算出の注目度): 5.97388782528814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit remarkable performance improvement
through in-context learning (ICL) by leveraging task-specific examples in the
input. However, the mechanisms behind this improvement remain elusive. In this
work, we investigate embeddings and attention representations in Llama-2 70B
and Vicuna 13B. Specifically, we study how embeddings and attention change
after in-context-learning, and how these changes mediate improvement in
behavior. We employ neuroscience-inspired techniques, such as representational
similarity analysis (RSA), and propose novel methods for parameterized probing
and attention ratio analysis (ARA, measuring the ratio of attention to relevant
vs. irrelevant information). We designed three tasks with a priori
relationships among their conditions: reading comprehension, linear regression,
and adversarial prompt injection. We formed hypotheses about expected
similarities in task representations to investigate latent changes in
embeddings and attention. Our analyses revealed a meaningful correlation
between changes in both embeddings and attention representations with
improvements in behavioral performance after ICL. This empirical framework
empowers a nuanced understanding of how latent representations affect LLM
behavior with and without ICL, offering valuable tools and insights for future
research and practical applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)により、入力中のタスク固有の例を活用することにより、顕著なパフォーマンス向上を示す。
しかし、この改善のメカニズムはいまだ解明されていない。
本研究では,Llama-270BとVicuna 13Bの埋め込みと注意表現について検討する。
具体的には、コンテキスト内学習後の埋め込みと注意がどのように変化するか、そしてこれらの変化が行動改善の媒介となるかを検討する。
我々は,表現類似性分析(RSA)などの神経科学に触発された手法を採用し,パラメータ化探索と注意比率分析(ARA)のための新しい手法を提案する。
本研究は,3つの条件,すなわち読解理解,線形回帰,対向的プロンプトインジェクションの3つのタスクを設計した。
埋め込みや注意の潜伏変化を調べるために,タスク表現における期待される類似性について仮説を立てた。
ICL後の行動特性の改善とともに,埋め込みと注意表現の両方の変化に有意な相関が認められた。
この実証的なフレームワークは、潜伏表現がICLの有無にかかわらずLLMの振る舞いにどのように影響するかを微妙に理解し、将来の研究や実用化に有用なツールと洞察を提供する。
関連論文リスト
- The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Exploring the Relationship between In-Context Learning and Instruction
Tuning [18.186126518966017]
In-Context Learning (ICL) と Instruction Tuning (IT) は、下流アプリケーションにLarge Language Modelsを採用する2つの主要なパラダイムである。
ICLでは、推論時に一連のデモが提供されるが、LLMのパラメータは更新されない。
ITでは、LLMのパラメータをトレーニング時にチューニングするために一連のデモが使用されるが、推論時にデモは使用されない。
論文 参考訳(メタデータ) (2023-11-17T07:40:46Z) - In-Context Exemplars as Clues to Retrieving from Large Associative
Memory [1.2952137350423816]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)がトレーニングなしでインコンテキストの例からパターンを学習することを可能にする。
文脈内学習の仕組みの理解が欠如しているため、模範をどう選ぶかはいまだ不明である。
本研究は、メモリ検索に接続することで、ICLのメカニズムに新たな光を当てる。
論文 参考訳(メタデータ) (2023-11-06T20:13:29Z) - Label Words are Anchors: An Information Flow Perspective for
Understanding In-Context Learning [77.7070536959126]
大規模言語モデル(LLM)の有望な能力としてインコンテキスト学習(ICL)が出現する
本稿では,情報フローレンズを用いたICLの動作機構について検討する。
本稿では,ICL性能向上のためのアンカー再重み付け手法,推論の高速化のための実演圧縮手法,GPT2-XLにおけるICLエラーの診断のための解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T15:26:20Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Learning Generalizable Representations for Reinforcement Learning via
Adaptive Meta-learner of Behavioral Similarities [43.327357653393015]
本稿では,強化学習における行動類似性に関する表現学習のためのメタラーナーベースフレームワークを提案する。
提案するフレームワークが,いくつかのベンチマークで最先端のベースラインを上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-12-26T11:11:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。