論文の概要: The Dual-Route Model of Induction
- arxiv url: http://arxiv.org/abs/2504.03022v2
- Date: Sun, 20 Jul 2025 18:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 18:47:38.895991
- Title: The Dual-Route Model of Induction
- Title(参考訳): 誘導の二重経路モデル
- Authors: Sheridan Feucht, Eric Todd, Byron Wallace, David Bau,
- Abstract要約: 新しいタイプの誘導ヘッド:概念レベル誘導ヘッドは、個々のトークンの代わりに語彙単位全体をコピーする。
概念誘導ヘッドは単語レベルの翻訳のような意味的なタスクに責任があることを示し、一方トークン誘導ヘッドは動詞でしかできないタスクには不可欠である。
- 参考スコア(独自算出の注目度): 19.752542337008773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work on in-context copying has shown the existence of induction heads, which attend to and promote individual tokens during copying. In this work we discover a new type of induction head: concept-level induction heads, which copy entire lexical units instead of individual tokens. Concept induction heads learn to attend to the ends of multi-token words throughout training, working in parallel with token-level induction heads to copy meaningful text. We show that these heads are responsible for semantic tasks like word-level translation, whereas token induction heads are vital for tasks that can only be done verbatim (like copying nonsense tokens). These two "routes" operate independently: we show that ablation of token induction heads causes models to paraphrase where they would otherwise copy verbatim. By patching concept induction head outputs, we find that they contain language-independent word representations that mediate natural language translation, suggesting that LLMs represent abstract word meanings independent of language or form.
- Abstract(参考訳): テキスト内コピーに関する以前の研究は、コピー中に個々のトークンに出席し、促進する誘導ヘッドの存在を示してきた。
この研究で我々は、新しいタイプの誘導ヘッド:概念レベル誘導ヘッドを発見し、個々のトークンの代わりに語彙単位全体をコピーする。
概念誘導ヘッドは、意味のあるテキストをコピーするためにトークンレベル誘導ヘッドと並行して動作する。
これらのヘッドは単語レベルの翻訳のような意味的なタスクに責任があることを示し、一方トークン誘導ヘッドは(ナンセンストークンのコピーのように)冗長にしかできないタスクには不可欠である。
これら2つのルートは独立して動作し、トークン誘導ヘッドのアブレーションがモデルにパラフレーズを与え、それ以外は動詞をコピーする。
概念誘導ヘッドの出力にパッチを当てることで、自然言語翻訳を仲介する言語に依存しない単語表現が含まれており、LLMは言語や形式に依存しない抽象的な単語の意味を表現することが示唆される。
関連論文リスト
- Which Attention Heads Matter for In-Context Learning? [41.048579134842285]
大規模言語モデル(LLM)は、印象的なインコンテキスト学習(ICL)能力を示す。
関連するトークンを見つけてコピーする誘導ヘッドと、ICLタスクの潜在エンコーディングを計算する関数ベクトル(FV)ヘッドの2つの異なるメカニズムが提案されている。
誘導頭部とFV頭部を12言語モデルで検討・比較する。
論文 参考訳(メタデータ) (2025-02-19T12:25:02Z) - Do Attention Heads Compete or Cooperate during Counting? [0.12116854758481393]
初等課題における小型変圧器の深部機械的解釈可能性解析について述べる。
我々は、注目ヘッドが擬似アンサンブルとして振る舞うのか、すべて同じサブタスクを解くのか、それとも異なるサブタスクを実行するのかを問う。
論文 参考訳(メタデータ) (2025-02-10T17:21:39Z) - To Word Senses and Beyond: Inducing Concepts with Contextualized Language Models [0.9176056742068812]
多義語と同義語は、語彙的曖昧性の2つの重要な相互関係の面である。
本稿では,単語間のソフトクラスタリングを学習する教師なしタスクである概念誘導について紹介する。
本稿では、局所的なレムマ中心ビューとグローバルなクロスレキシコンビューの両方を活用して概念を誘導する概念誘導のバイレベルアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:07:06Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Tripod: Three Complementary Inductive Biases for Disentangled Representation Learning [52.70210390424605]
本研究では,文献から選択した3つの帰納バイアスを持つニューラルネットワークオートエンコーダを提案する。
しかし、実際には、これらの帰納バイアスをインスタンス化する既存の技術を組み合わせることは、大きな利益をもたらすことに失敗する。
学習問題を単純化する3つの手法に適応し、不変性を安定化する鍵正則化項とクォーシュ縮退インセンティブを提案する。
結果のモデルであるTripodは、4つのイメージアンタングルメントベンチマークのスイートで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-16T04:52:41Z) - An Incomplete Loop: Deductive, Inductive, and Abductive Learning in Large Language Models [99.31449616860291]
現代の言語モデル(LM)は、異なる方法で新しいタスクを実行することを学べる。
次の命令では、ターゲットタスクは自然言語で明示的に記述され、少数ショットプロンプトでは、タスクは暗黙的に指定される。
命令推論では、LMはインコンテキストの例を示し、自然言語のタスク記述を生成するように促される。
論文 参考訳(メタデータ) (2024-04-03T19:31:56Z) - Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文 参考訳(メタデータ) (2024-03-03T13:14:47Z) - Identifying Semantic Induction Heads to Understand In-Context Learning [103.00463655766066]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。
特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文 参考訳(メタデータ) (2024-02-20T14:43:39Z) - Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement [92.61557711360652]
言語モデル(LM)は、しばしば帰納的推論に不足する。
我々は,反復的仮説修正を通じて,LMの帰納的推論能力を体系的に研究する。
本研究は, LMの誘導的推論過程と人間とのいくつかの相違点を明らかにし, 誘導的推論タスクにおけるLMの使用の可能性と限界に光を当てる。
論文 参考訳(メタデータ) (2023-10-12T17:51:10Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - In-context Learning and Induction Heads [5.123049926855312]
インダクションヘッド(Induction Head)は、トークンシーケンスを完了するための単純なアルゴリズムを実装するアテンションヘッドである。
インテキスト学習能力の急激な増加に伴い, 誘導頭部は, ほぼ同程度に発達することがわかった。
論文 参考訳(メタデータ) (2022-09-24T00:43:19Z) - Reciprocal Feature Learning via Explicit and Implicit Tasks in Scene
Text Recognition [60.36540008537054]
本研究では,従来のテキスト認識における文字数カウントという暗黙のタスクを,追加的な注釈コストなしで発掘する。
両タスクの機能を適切に活用するために,2分岐の相反的特徴学習フレームワークを設計する。
7つのベンチマークの実験では、テキスト認識と新しい文字カウントタスクの両方において提案手法の利点が示されている。
論文 参考訳(メタデータ) (2021-05-13T12:27:35Z) - What's in your Head? Emergent Behaviour in Multi-Task Transformer Models [26.557793822750302]
私たちは、非ターゲットヘッドの振る舞い、すなわち、訓練されたタスクとは異なるタスクに属する入力を与えられたときのヘッドの出力を研究します。
非ターゲットヘッドが創発的行動を示し、ターゲットタスクを説明するか、あるいは元のタスクを超えて一般化する可能性がある。
論文 参考訳(メタデータ) (2021-04-13T12:04:30Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - Towards Coinductive Models for Natural Language Understanding. Bringing
together Deep Learning and Deep Semantics [0.0]
Coinductionはオペレーティング システムおよびプログラミング言語の設計で首尾よく使用されました。
テキストマイニングや機械翻訳、インテンシティリティやモダリティをモデル化するいくつかの試みに存在している。
本稿では,自然言語処理における帰納と造語の組み合わせの例を示す。
論文 参考訳(メタデータ) (2020-12-09T03:10:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。