論文の概要: The Dual-Route Model of Induction
- arxiv url: http://arxiv.org/abs/2504.03022v1
- Date: Thu, 03 Apr 2025 20:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:41.029859
- Title: The Dual-Route Model of Induction
- Title(参考訳): 誘導の二重経路モデル
- Authors: Sheridan Feucht, Eric Todd, Byron Wallace, David Bau,
- Abstract要約: 概念レベルの誘導ヘッドを導入し、個々のトークンの代わりに語彙単位全体をコピーする。
概念誘導ヘッドは単語レベルの翻訳のような意味的なタスクに責任があることを示し、一方トークン誘導ヘッドは動詞でしかできないタスクには不可欠である。
- 参考スコア(独自算出の注目度): 19.752542337008773
- License:
- Abstract: Prior work on in-context copying has shown the existence of induction heads, which attend to and promote individual tokens during copying. In this work we introduce a new type of induction head: concept-level induction heads, which copy entire lexical units instead of individual tokens. Concept induction heads learn to attend to the ends of multi-token words throughout training, working in parallel with token-level induction heads to copy meaningful text. We show that these heads are responsible for semantic tasks like word-level translation, whereas token induction heads are vital for tasks that can only be done verbatim, like copying nonsense tokens. These two "routes" operate independently: in fact, we show that ablation of token induction heads causes models to paraphrase where they would otherwise copy verbatim. In light of these findings, we argue that although token induction heads are vital for specific tasks, concept induction heads may be more broadly relevant for in-context learning.
- Abstract(参考訳): テキスト内コピーに関する以前の研究は、コピー中に個々のトークンに出席し、促進する誘導ヘッドの存在を示してきた。
本研究では,新しいタイプの誘導ヘッド,概念レベル誘導ヘッドを導入し,個々のトークンの代わりに語彙単位全体をコピーする。
概念誘導ヘッドは、意味のあるテキストをコピーするためにトークンレベル誘導ヘッドと並行して動作する。
これらのヘッドは単語レベルの翻訳のような意味的なタスクに責任があることを示し、一方トークン誘導ヘッドは、ナンセンストークンをコピーするなど、冗長にしかできないタスクには不可欠である。
これらの2つの「ルート」は独立して機能する: 実際、トークン誘導ヘッドのアブレーションがモデルにパラフレーズを与え、それ以外は動詞をコピーする。
これらの知見を踏まえ、トークン誘導ヘッドは特定のタスクには不可欠であるが、概念誘導ヘッドは文脈内学習にはより広範に関係しているかもしれないと論じる。
関連論文リスト
- Which Attention Heads Matter for In-Context Learning? [41.048579134842285]
大規模言語モデル(LLM)は、印象的なインコンテキスト学習(ICL)能力を示す。
関連するトークンを見つけてコピーする誘導ヘッドと、ICLタスクの潜在エンコーディングを計算する関数ベクトル(FV)ヘッドの2つの異なるメカニズムが提案されている。
誘導頭部とFV頭部を12言語モデルで検討・比較する。
論文 参考訳(メタデータ) (2025-02-19T12:25:02Z) - Do Attention Heads Compete or Cooperate during Counting? [0.12116854758481393]
初等課題における小型変圧器の深部機械的解釈可能性解析について述べる。
我々は、注目ヘッドが擬似アンサンブルとして振る舞うのか、すべて同じサブタスクを解くのか、それとも異なるサブタスクを実行するのかを問う。
論文 参考訳(メタデータ) (2025-02-10T17:21:39Z) - To Word Senses and Beyond: Inducing Concepts with Contextualized Language Models [0.9176056742068812]
多義語と同義語は、語彙的曖昧性の2つの重要な相互関係の面である。
本稿では,単語間のソフトクラスタリングを学習する教師なしタスクである概念誘導について紹介する。
本稿では、局所的なレムマ中心ビューとグローバルなクロスレキシコンビューの両方を活用して概念を誘導する概念誘導のバイレベルアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:07:06Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Tripod: Three Complementary Inductive Biases for Disentangled Representation Learning [52.70210390424605]
本研究では,文献から選択した3つの帰納バイアスを持つニューラルネットワークオートエンコーダを提案する。
しかし、実際には、これらの帰納バイアスをインスタンス化する既存の技術を組み合わせることは、大きな利益をもたらすことに失敗する。
学習問題を単純化する3つの手法に適応し、不変性を安定化する鍵正則化項とクォーシュ縮退インセンティブを提案する。
結果のモデルであるTripodは、4つのイメージアンタングルメントベンチマークのスイートで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-16T04:52:41Z) - An Incomplete Loop: Deductive, Inductive, and Abductive Learning in Large Language Models [99.31449616860291]
現代の言語モデル(LM)は、異なる方法で新しいタスクを実行することを学べる。
次の命令では、ターゲットタスクは自然言語で明示的に記述され、少数ショットプロンプトでは、タスクは暗黙的に指定される。
命令推論では、LMはインコンテキストの例を示し、自然言語のタスク記述を生成するように促される。
論文 参考訳(メタデータ) (2024-04-03T19:31:56Z) - Identifying Semantic Induction Heads to Understand In-Context Learning [103.00463655766066]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。
特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文 参考訳(メタデータ) (2024-02-20T14:43:39Z) - Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement [92.61557711360652]
言語モデル(LM)は、しばしば帰納的推論に不足する。
我々は,反復的仮説修正を通じて,LMの帰納的推論能力を体系的に研究する。
本研究は, LMの誘導的推論過程と人間とのいくつかの相違点を明らかにし, 誘導的推論タスクにおけるLMの使用の可能性と限界に光を当てる。
論文 参考訳(メタデータ) (2023-10-12T17:51:10Z) - In-context Learning and Induction Heads [5.123049926855312]
インダクションヘッド(Induction Head)は、トークンシーケンスを完了するための単純なアルゴリズムを実装するアテンションヘッドである。
インテキスト学習能力の急激な増加に伴い, 誘導頭部は, ほぼ同程度に発達することがわかった。
論文 参考訳(メタデータ) (2022-09-24T00:43:19Z) - Reciprocal Feature Learning via Explicit and Implicit Tasks in Scene
Text Recognition [60.36540008537054]
本研究では,従来のテキスト認識における文字数カウントという暗黙のタスクを,追加的な注釈コストなしで発掘する。
両タスクの機能を適切に活用するために,2分岐の相反的特徴学習フレームワークを設計する。
7つのベンチマークの実験では、テキスト認識と新しい文字カウントタスクの両方において提案手法の利点が示されている。
論文 参考訳(メタデータ) (2021-05-13T12:27:35Z) - What's in your Head? Emergent Behaviour in Multi-Task Transformer Models [26.557793822750302]
私たちは、非ターゲットヘッドの振る舞い、すなわち、訓練されたタスクとは異なるタスクに属する入力を与えられたときのヘッドの出力を研究します。
非ターゲットヘッドが創発的行動を示し、ターゲットタスクを説明するか、あるいは元のタスクを超えて一般化する可能性がある。
論文 参考訳(メタデータ) (2021-04-13T12:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。