論文の概要: Where does an LLM begin computing an instruction?
- arxiv url: http://arxiv.org/abs/2511.10694v2
- Date: Wed, 19 Nov 2025 08:35:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.073312
- Title: Where does an LLM begin computing an instruction?
- Title(参考訳): LLMはどこで命令を計算し始めるのか?
- Authors: Aditya Pola, Vineeth N. Balasubramanian,
- Abstract要約: レイヤスタックに沿って、次に示す命令がどこから始まるのか、読み取りが行うべきポイントを問う。
Llama ファミリーのモデル全体では、この点よりも先に予測を変更する介入が、その後ほとんど効果を示さないような、オンセット(onset)と呼ばれる反射点が観察される。
これらの結果は、命令がどこから始まるかを特定し、タスクとモデルサイズでこの位置を比較するための、シンプルでレプリカ可能な方法を提供する。
- 参考スコア(独自算出の注目度): 30.1300323145944
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Following an instruction involves distinct sub-processes, such as reading content, reading the instruction, executing it, and producing an answer. We ask where, along the layer stack, instruction following begins, the point where reading gives way to doing. We introduce three simple datasets (Key-Value, Quote Attribution, Letter Selection) and two hop compositions of these tasks. Using activation patching on minimal-contrast prompt pairs, we measure a layer-wise flip rate that indicates when substituting selected residual activations changes the predicted answer. Across models in the Llama family, we observe an inflection point, which we term onset, where interventions that change predictions before this point become largely ineffective afterward. Multi-hop compositions show a similar onset location. These results provide a simple, replicable way to locate where instruction following begins and to compare this location across tasks and model sizes.
- Abstract(参考訳): 命令に従うには、コンテンツを読み、命令を読み、実行し、答えを生成するなど、異なるサブプロセスが含まれる。
レイヤスタックに沿って、次に示す命令がどこから始まるのか、読み取りが行うべきポイントを問う。
本稿では3つの簡単なデータセット(Key-Value, Quote Attribution, Letter Selection)と2つのホップ構成を紹介する。
最小コントラストのプロンプトペア上でのアクティベーションパッチを用いて、選択された残余アクティベーションの置換が予測された応答を変化させた際の層幅のフリップ率を測定する。
Llama ファミリーのモデル全体では、この点よりも先に予測を変更する介入が、その後ほとんど効果を示さないような、オンセット(onset)と呼ばれる反射点が観察される。
マルチホップ構成は、同様の位置を示す。
これらの結果は、命令がどこから始まるかを特定し、タスクとモデルサイズでこの位置を比較するための、シンプルでレプリカ可能な方法を提供する。
関連論文リスト
- Less is more: Summarizing Patch Tokens for efficient Multi-Label Class-Incremental Learning [38.36863497458095]
我々は, pAtch tokeN Embeddings (MULTI-LANE) を要約したクラス増分学習手法を提案する。
提案手法は, pAtch tokeN Embeddings (MULTI-LANE) を要約したマルチラベルクラスインクリメンタルラーニングであり, 高速な推論を実現するとともに, MLCILにおける非絡合タスク固有表現の学習を可能にする。
論文 参考訳(メタデータ) (2024-05-24T15:18:27Z) - LP++: A Surprisingly Strong Linear Probe for Few-Shot CLIP [20.86307407685542]
リニアプローブ(LP)は、数発のCLIP適応の弱いベースラインとしてしばしば報告されている。
本研究では,コンベックス最適化の観点から標準LPベースラインの一般化について検討する。
我々の画像言語目的関数は、これらの非自明な最適化の洞察や成分とともに、驚くほど、競争力の高いCLIPパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-04-02T20:23:10Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。