論文の概要: Context Structure Reshapes the Representational Geometry of Language Models
- arxiv url: http://arxiv.org/abs/2601.22364v1
- Date: Thu, 29 Jan 2026 22:17:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.094877
- Title: Context Structure Reshapes the Representational Geometry of Language Models
- Title(参考訳): 文脈構造が言語モデルの表現幾何学に影響を及ぼす
- Authors: Eghbal A. Hosseini, Yuxuan Li, Yasaman Bahri, Declan Campbell, Andrew Kyle Lampinen,
- Abstract要約: 大規模言語モデル(LLM)は入力シーケンスの表現をよりまっすぐな神経軌道に整理する。
近年の研究では、この文脈内学習が表現的変化に反映できることが示されている。
Gemma 2モデルにおける表現的ストレート化を、さまざまなコンテキスト内タスクの集合にわたって測定する。
- 参考スコア(独自算出の注目度): 9.670218260803628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have been shown to organize the representations of input sequences into straighter neural trajectories in their deep layers, which has been hypothesized to facilitate next-token prediction via linear extrapolation. Language models can also adapt to diverse tasks and learn new structure in context, and recent work has shown that this in-context learning (ICL) can be reflected in representational changes. Here we bring these two lines of research together to explore whether representation straightening occurs \emph{within} a context during ICL. We measure representational straightening in Gemma 2 models across a diverse set of in-context tasks, and uncover a dichotomy in how LLMs' representations change in context. In continual prediction settings (e.g., natural language, grid world traversal tasks) we observe that increasing context increases the straightness of neural sequence trajectories, which is correlated with improvement in model prediction. Conversely, in structured prediction settings (e.g., few-shot tasks), straightening is inconsistent -- it is only present in phases of the task with explicit structure (e.g., repeating a template), but vanishes elsewhere. These results suggest that ICL is not a monolithic process. Instead, we propose that LLMs function like a Swiss Army knife: depending on task structure, the LLM dynamically selects between strategies, only some of which yield representational straightening.
- Abstract(参考訳): 大規模言語モデル (LLM) は、入力配列の表現を深層におけるより直線的な神経軌道にまとめることが示されている。
言語モデルはまた、多様なタスクに適応し、文脈において新しい構造を学ぶことができ、近年の研究により、この文脈内学習(ICL)が表現的変化に反映できることが示されている。
ここでは、これらの2つの研究の行をまとめて、表現の直線化がICLの間、文脈として \emph{within} が発生するかどうかを考察する。
Gemma 2モデルにおける表現のストレート化は、様々なコンテキスト内タスクの集合にわたって測定し、LLMの表現が文脈でどのように変化するかという二分法を明らかにする。
連続的な予測設定(自然言語、グリッドワールドトラバーサルタスクなど)では、文脈の増大がニューラルシークエンストラジェクトリの直線性を高め、モデル予測の改善と相関する。
逆に、構造化された予測設定(例: 数ショットタスク)では、ストレート化は矛盾する -- 明示的な構造(例: テンプレートの繰り返し)を持つタスクのフェーズにのみ存在するが、他の場所では消滅する。
これらの結果は、ICLはモノリシックなプロセスではないことを示唆している。
代わりに,LLMはスイス陸軍のナイフのように機能し,タスク構造によって,LLMは動的に戦略の選択を行う。
関連論文リスト
- Contextualize-then-Aggregate: Circuits for In-Context Learning in Gemma-2 2B [51.74607395697567]
In-Context Learning (ICL)は、大規模言語モデル(LLM)の興味深い能力である。
我々は5つの自然主義ICLタスクに対してGemma-2 2Bにおける情報フローを因果介入を用いて同定する。
このモデルでは,2段階戦略を用いてタスク情報を推論し,コンテキスト化-then-aggregateと呼ぶ。
論文 参考訳(メタデータ) (2025-03-31T18:33:55Z) - Parallel Structures in Pre-training Data Yield In-Context Learning [41.27837171531926]
我々は、事前学習データのパターンが文脈内学習(ICL)にどのような寄与するかを検討する。
LMのICL能力は、事前学習データで$textitparallel構造に依存している。
論文 参考訳(メタデータ) (2024-02-19T20:40:48Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。
モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか?
GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。
この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - Understanding Emergent In-Context Learning from a Kernel Regression Perspective [55.95455089638838]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,LLMのICLバハビエータの理解におけるカーネル-回帰的視点を提案する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。