論文の概要: Lost in the Prompt Order: Revealing the Limitations of Causal Attention in Language Models
- arxiv url: http://arxiv.org/abs/2601.14152v1
- Date: Tue, 20 Jan 2026 16:54:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.418351
- Title: Lost in the Prompt Order: Revealing the Limitations of Causal Attention in Language Models
- Title(参考訳): プロンプト順の喪失--言語モデルにおける因果関係の限界について
- Authors: Hyunjong Ok, Jaeho Lee,
- Abstract要約: 大きな言語モデルは、プロンプトの構造に対して驚くほどの感度を示す。
複数選択質問応答では、質問とオプション(CQO)の前にコンテキストを置くと、逆順(QOC)が14%以上向上する。
- 参考スコア(独自算出の注目度): 13.389832365304263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models exhibit surprising sensitivity to the structure of the prompt, but the mechanisms underlying this sensitivity remain poorly understood. In this work, we conduct an in-depth investigation on a striking case: in multiple-choice question answering, placing context before the questions and options (CQO) outperforms the reverse order (QOC) by over 14%p, consistently over a wide range of models and datasets. Through systematic architectural analysis, we identify causal attention as the core mechanism: in QOC prompts, the causal mask prevents option tokens from attending to context, creating an information bottleneck where context becomes invisible to options.
- Abstract(参考訳): 大規模な言語モデルでは、プロンプトの構造に対して驚くほどの感度を示すが、この感度のメカニズムはいまだに理解されていない。
本研究は,質問と選択肢 (CQO) の前にコンテキストを配置することで,広範囲のモデルとデータセットに対して連続して14%以上の逆順 (QOC) を向上する。
組織的なアーキテクチャ分析を通じて、因果的注意を中核的なメカニズムとして認識する: QOCプロンプトでは、因果的マスクはオプショントークンのコンテクストへの参加を防止し、コンテクストがオプションに見えないような情報ボトルネックを作り出す。
関連論文リスト
- ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - Query Expansion in the Age of Pre-trained and Large Language Models: A Comprehensive Survey [21.764997953030857]
現代の情報検索は、多種多様な動的コーパスであいまいなクエリを調整しなければならない。
インジェクションのポイント、接地と相互作用、学習とアライメント、知識グラフの統合の4つの相補的な側面に沿って、最近の作業を組織化します。
この調査では、Web検索、バイオメディシン、eコマース、オープンドメイン質問応答/RAG、会話とコード検索、言語間設定など、7つの側面にわたる従来のQEと神経質なQEを比較した。
論文 参考訳(メタデータ) (2025-09-09T14:31:11Z) - Deceiving Question-Answering Models: A Hybrid Word-Level Adversarial Approach [11.817276791266284]
本稿では,QAモデルを騙す新しい単語レベル対逆戦略であるQA-Attackを紹介する。
我々のアテンションベースの攻撃は、特定の単語を識別・ターゲットするために、カスタマイズされたアテンション機構と削除ランキング戦略を利用する。
同義語を慎重に選択し置換し、文法的整合性を保ちながら、間違った反応を生み出すためにモデルを誤解させる。
論文 参考訳(メタデータ) (2024-11-12T23:54:58Z) - Answer, Assemble, Ace: Understanding How LMs Answer Multiple Choice Questions [103.20281438405111]
MCQA(Multiple-choice Question answering)は、高性能トランスフォーマー言語モデルのキーコンピテンスである。
我々は,正解を予測するための関連情報をエンコードするキー隠れ状態のローカライズに語彙予測とアクティベーションパッチ手法を用いる。
後続の層は語彙空間における予測応答記号の確率を増大させ、この確率の増加は、特異な役割を持つ注目ヘッドのスパースセットと関連していることを示す。
論文 参考訳(メタデータ) (2024-07-21T00:10:23Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Analyzing Chain-of-Thought Prompting in Large Language Models via
Gradient-based Feature Attributions [10.621564997491808]
チェーン・オブ・シークレット(CoT)のプロンプトは、大規模言語モデルの精度を実証的に改善することが示されている。
我々は、CoTプロンプトが特定の入力トークンに割り当てる相対的重要性に影響を及ぼすかどうかを検討する。
以上の結果から,CoTプロンプトは意味的関連トークンによるサリエンシスコアの規模を増大させるものではないが,サリエンシスコアのロバスト性を高め,モデル出力の摂動や変動に疑問を投げかけることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T08:51:30Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Knowledge-Based Counterfactual Queries for Visual Question Answering [0.0]
本稿では,VQAモデルの動作を説明するための系統的手法を提案する。
そこで我々は,言語的モダリティをターゲットとした決定論的,最適,制御可能な単語レベルの置換を行うために,構造化知識ベースを利用する。
次に、そのような反実的な入力に対するモデルの応答を評価する。
論文 参考訳(メタデータ) (2023-03-05T08:00:30Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。