論文の概要: Measuring Pragmatic Influence in Large Language Model Instructions
- arxiv url: http://arxiv.org/abs/2602.21223v1
- Date: Mon, 02 Feb 2026 06:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.658696
- Title: Measuring Pragmatic Influence in Large Language Model Instructions
- Title(参考訳): 大規模言語モデル指導における実用的影響の測定
- Authors: Yilin Geng, Omri Abend, Eduard Hovy, Lea Frermann,
- Abstract要約: 「緊急」または「上司として」は、タスク内容を変更することなくモデル行動を変えることができる。
我々はこの効果を,タスク仕様よりも指示解釈を形作る現実的なフレーミング,文脈的手がかりとして研究する。
- 参考スコア(独自算出の注目度): 20.689781190240428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is not only what we ask large language models (LLMs) to do that matters, but also how we prompt. Phrases like "This is urgent" or "As your supervisor" can shift model behavior without altering task content. We study this effect as pragmatic framing, contextual cues that shape directive interpretation rather than task specification. While prior work exploits such cues for prompt optimization or probes them as security vulnerabilities, pragmatic framing itself has not been treated as a measurable property of instruction following. Measuring this influence systematically remains challenging, requiring controlled isolation of framing cues. We introduce a framework with three novel components: directive-framing decomposition separating framing context from task specification; a taxonomy organizing 400 instantiations of framing into 13 strategies across 4 mechanism clusters; and priority-based measurement that quantifies influence through observable shifts in directive prioritization. Across five LLMs of different families and sizes, influence mechanisms cause consistent and structured shifts in directive prioritization, moving models from baseline impartiality toward favoring the framed directive. This work establishes pragmatic framing as a measurable and predictable factor in instruction-following systems.
- Abstract(参考訳): 大規模な言語モデル(LLM)にそのようなことを行うように要求するだけでなく、どのように促すかも重要です。
これは緊急”や“上司として”といったフレーズは、タスクの内容を変更することなく、モデルの振る舞いを変えることができます。
我々はこの効果を,タスク仕様よりも指示解釈を形作る現実的なフレーミング,文脈的手がかりとして研究する。
以前の作業では、このようなキューを迅速に最適化したり、セキュリティ上の脆弱性として調査する必要があったが、現実的なフレーミング自体は、次の命令の計測可能な特性として扱われていない。
この影響を体系的に測定することは依然として困難であり、フレーミングキューの分離を制御する必要がある。
タスク仕様からフレーミングコンテキストを分離するディレクティブ・フレーミング分解(Directive-framing decomposition),4つのメカニズムクラスタにわたる13の戦略に400のフレーミングのインスタンス化を編成する分類,ディレクティブ優先順位付けにおける観測可能なシフトを通じて影響を定量化する優先度に基づく測定という,3つの新しいコンポーネントを取り入れたフレームワークを導入する。
異なる家族と大きさの5つのLLM全体において、影響メカニズムは指令の優先順位付けにおいて一貫した構造的なシフトを引き起こし、ベースラインの公平性からフレーム化された指令の優遇へとモデルを移動させる。
この研究は、命令追従システムにおける可測かつ予測可能な因子として実用的フレーミングを確立する。
関連論文リスト
- Position: General Alignment Has Hit a Ceiling; Edge Alignment Must Be Taken Seriously [51.03213216886717]
我々は、一般的なアライメントの支配的なパラダイムが、矛盾する値の設定において構造的な天井に達するという立場を取る。
エッジアライメント(Edge Alignment)は,多次元の値構造を保持するシステムにおいて,異なるアプローチである。
論文 参考訳(メタデータ) (2026-02-23T16:51:43Z) - FiLoRA: Focus-and-Ignore LoRA for Controllable Feature Reliance [9.773453946550003]
内部機能依存の明示的な制御を可能にする適応フレームワークFiLoRAを紹介する。
テキスト画像と音声画像のベンチマークにおいて、FiLoRAは内部計算において一貫した因果シフトを誘導することを示す。
さらなる分析により、FiLoRAは突発的特徴介入下で堅牢性を向上させることが示されている。
論文 参考訳(メタデータ) (2026-02-02T13:00:57Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models [122.58252919699122]
機械的解釈可能性 (MI) は、大規模言語モデル (LLM) の意思決定を決定づける重要なアプローチとして登場した。
Awesomeinterventionable-MI-Survey" というパイプラインを中心に構築された実践的調査を提案する。
論文 参考訳(メタデータ) (2026-01-20T14:23:23Z) - UniMo: Unified Motion Generation and Understanding with Chain of Thought [18.404131357169657]
UniMoは、動き言語情報と解釈可能な思考の連鎖(CoT)を大きな言語モデルに統合する新しいフレームワークである。
動作生成と理解の両方において、UniMoは既存の統合モデルとタスク固有モデルを大幅に上回っており、最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2026-01-17T17:56:49Z) - Reasoning Up the Instruction Ladder for Controllable Language Models [26.068755167791505]
大規模言語モデル(LLM)に基づくシステムは、現実世界の意思決定において高い役割を担っている。
LLMの信頼性と制御性には,命令階層(IH)の強化が重要である。
本研究では,命令階層分解を推論タスクとして再設計する。
論文 参考訳(メタデータ) (2025-10-30T22:13:31Z) - Diagnose, Localize, Align: A Full-Stack Framework for Reliable LLM Multi-Agent Systems under Instruction Conflicts [75.20929587906228]
LLM(Large Language Model)を利用したマルチエージェントシステム(MAS)は、複雑なタスクにおける協調推論、ツールの使用、役割特化調整を急速に進めている。
しかし、信頼性クリティカルなデプロイメントは、体系的な障害モード、すなわち命令の競合による階層的コンプライアンスによって妨げられている。
論文 参考訳(メタデータ) (2025-09-27T08:43:34Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - Causal Head Gating: A Framework for Interpreting Roles of Attention Heads in Transformers [3.9274867826451323]
本稿では,変圧器モデルにおける注目頭部の機能的役割を解釈するスケーラブルな方法として,因果頭部ゲーティング(CHG)を提案する。
CHGは頭上のソフトゲートを学び、タスクのパフォーマンスへの影響に基づいて因果分類を割り当てる。
以上の結果から,CHGスコアは単なる相関ではなく,アブレーションと因果媒介分析によって評価された洞察をもたらすことが示された。
論文 参考訳(メタデータ) (2025-05-19T21:24:13Z) - Control Illusion: The Failure of Instruction Hierarchies in Large Language Models [46.5792253691152]
大規模言語モデル (LLM) は階層的な命令スキームによって徐々に展開される。
制約優先順位付けに基づく体系的評価フレームワークを導入し,LLMがいかに命令階層を強制するかを評価する。
論文 参考訳(メタデータ) (2025-02-21T04:51:37Z) - SoFA: Shielded On-the-fly Alignment via Priority Rule Following [90.32819418613407]
本稿では,各ダイアログにおけるルールを主制御機構として定義する,新たなアライメントパラダイムである優先ルールを提案する。
そこで本研究では,厳密な規則統合と固着性を確保するために,シミュレーションから優先信号に従う半自動蒸留手法であるプライオリティディスティルを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。