論文の概要: A circuit for predicting hierarchical structure in-context in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.21534v1
- Date: Thu, 25 Sep 2025 20:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.98303
- Title: A circuit for predicting hierarchical structure in-context in Large Language Models
- Title(参考訳): 大規模言語モデルにおける文脈内階層構造予測回路
- Authors: Tankred Saanum, Can Demircan, Samuel J. Gershman, Eric Schulz,
- Abstract要約: 大規模言語モデル(LLM)はコンテキスト内学習において優れており、将来的なトークンの予測を改善するためにコンテキストとして提供される情報を利用することができる。
そこで本研究では,トークンを階層的依存関係で繰り返し行う合成文脈内学習タスクを設計する。
文脈内で何に参加するべきかを学習することで予測を支援する適応型誘導ヘッドが見つかる。
- 参考スコア(独自算出の注目度): 19.35678318316516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) excel at in-context learning, the ability to use information provided as context to improve prediction of future tokens. Induction heads have been argued to play a crucial role for in-context learning in Transformer Language Models. These attention heads make a token attend to successors of past occurrences of the same token in the input. This basic mechanism supports LLMs' ability to copy and predict repeating patterns. However, it is unclear if this same mechanism can support in-context learning of more complex repetitive patterns with hierarchical structure. Natural language is teeming with such cases: The article "the" in English usually prefaces multiple nouns in a text. When predicting which token succeeds a particular instance of "the", we need to integrate further contextual cues from the text to predict the correct noun. If induction heads naively attend to all past instances of successor tokens of "the" in a context-independent manner, they cannot support this level of contextual information integration. In this study, we design a synthetic in-context learning task, where tokens are repeated with hierarchical dependencies. Here, attending uniformly to all successor tokens is not sufficient to accurately predict future tokens. Evaluating a range of LLMs on these token sequences and natural language analogues, we find adaptive induction heads that support prediction by learning what to attend to in-context. Next, we investigate how induction heads themselves learn in-context. We find evidence that learning is supported by attention heads that uncover a set of latent contexts, determining the different token transition relationships. Overall, we not only show that LLMs have induction heads that learn, but offer a complete mechanistic account of how LLMs learn to predict higher-order repetitive patterns in-context.
- Abstract(参考訳): 大規模言語モデル(LLM)はコンテキスト内学習において優れており、将来的なトークンの予測を改善するためにコンテキストとして提供される情報を利用することができる。
帰納的頭脳はトランスフォーマー言語モデルにおける文脈内学習において重要な役割を担っていると議論されている。
これらのアテンションヘッドは、入力中の同じトークンの過去の発生の後継者にトークンを割り当てる。
この基本的なメカニズムは、繰り返しパターンをコピーして予測するLLMの機能をサポートする。
しかし、この機構が階層構造を持つより複雑な反復パターンの文脈内学習をサポートできるかどうかは不明である。
英語の「the」は通常、テキストで複数の名詞を序文で表す。
どのトークンが"the"の特定のインスタンスを成功させるかを予測するとき、正しい名詞を予測するために、テキストからさらに文脈的な手がかりを統合する必要がある。
誘導ヘッドが文脈に依存しない方法で"the"の後継トークンの過去のすべてのインスタンスに鼻で参加する場合、このような文脈情報の統合はサポートできない。
そこで本研究では,トークンを階層的依存関係で繰り返し行う合成文脈内学習タスクを設計する。
ここでは、全ての後継トークンに均一に出席することは、将来のトークンを正確に予測するのに十分ではない。
これらのトークンシーケンスと自然言語の類似性に基づいてLLMの範囲を評価することで,コンテクスト内で何に参加するべきかを学習することで予測を支援する適応型誘導ヘッドが見つかる。
次に,インダクションヘッド自体がコンテキスト内でどのように学習するかを検討する。
学習は注目の頭によって支えられ、様々なトークン遷移関係を決定づける潜在コンテキストの集合を明らかにする証拠を見いだす。
全体として、LLMが学習する誘導ヘッドを持っているだけでなく、LLMが高次反復パターンをコンテキスト内でどのように予測するかの完全な力学的な説明を提供する。
関連論文リスト
- Improving Large Language Models with Concept-Aware Fine-Tuning [55.59287380665864]
概念認識ファインチューニング(CAFT)は,大規模言語モデル(LLM)のための新しいマルチトークン学習手法である
CAFTは複数のトークンにまたがるシーケンスの学習を可能にし、より強力な概念認識学習を促進する。
実験は、従来の次世代ファインタニング法と比較して大幅に改善された。
論文 参考訳(メタデータ) (2025-06-09T14:55:00Z) - Tokens, the oft-overlooked appetizer: Large language models, the distributional hypothesis, and meaning [29.745218855471787]
トークン化は多くの言語モデルの現在のアーキテクチャにおいて必要なコンポーネントである。
トークンと事前学習がバイアスやその他の望ましくないコンテンツのバックドアとして機能するかについて議論する。
トークン化アルゴリズムの目的関数が大規模言語モデルの認知に影響を及ぼす証拠を中継する。
論文 参考訳(メタデータ) (2024-12-14T18:18:52Z) - Quantifying Semantic Emergence in Language Models [31.608080868988825]
大規模言語モデル (LLM) は意味論的意味を捉える特別な能力として広く認識されている。
本研究では,入力トークンから意味を抽出するLLMの能力を測定するために,量的指標である情報創発(IE)を導入する。
論文 参考訳(メタデータ) (2024-05-21T09:12:20Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - A Theory of Emergent In-Context Learning as Implicit Structure Induction [8.17811111226145]
大きな言語モデルをスケールすると、実例からコンテキスト内で学習する能力が創発的になる。
文脈内学習は、自然言語データにみられる合成操作の組換えに依拠していると論じる。
入力の合成構造の表現によって、文脈内学習がどうサポートされるかを示す。
論文 参考訳(メタデータ) (2023-03-14T15:24:05Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。