Fugu-MT 論文翻訳(概要): Do Large Language Models Plan Answer Positions? Position Bias in Multiple-Choice Question Generation

論文の概要: Do Large Language Models Plan Answer Positions? Position Bias in Multiple-Choice Question Generation

arxiv url: http://arxiv.org/abs/2605.01846v1
Date: Sun, 03 May 2026 12:29:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-05 20:33:49.962136
Title: Do Large Language Models Plan Answer Positions? Position Bias in Multiple-Choice Question Generation
Title（参考訳）: 大規模言語モデルでは位置を求めることは可能か? 複数項目の質問生成における位置バイアス
Authors: Xuemei Tang, Xufeng Duan, Zhenguang G. Cai,
Abstract要約: 大規模言語モデル (LLM) は、多目的質問 (MCQ) を生成するためにますます使われている。 LLMは、世代間、系統的な位置バイアスを示す。質問の隠れ表現は正解位置の予測信号を符号化する。
参考スコア（独自算出の注目度）: 2.062792120786501
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are increasingly used to generate multiple-choice questions (MCQs), where correct answers should ideally be uniformly distributed across options. However, we observe that LLMs exhibit systematic position biases during generation. Through extensive experiments with 10 LLMs and 5 vision-language models (VLMs) on three MCQ generation tasks, we show that these biases are structured, with similar patterns emerging within model families. To investigate the underlying mechanisms, we conduct probing experiments and find that hidden representations in the question stem encode predictive signals of the correct answer position, suggesting that answer position may be implicitly planned during generation. Building on this insight, we apply activation steering to manipulate internal representations and influence answer position. Our results show that steering can partially control positional preferences and substantially shift answer position distributions. Our findings provide a practical framework for studying implicit positional planning in LLMs and highlight the importance of controllable generation for reliable MCQ construction and evaluation.
Abstract（参考訳）: 大規模言語モデル (LLMs) は、選択肢にまたがって正しい答えを理想的に均一に分配する、多重選択質問 (MCQs) を生成するために、ますます使われるようになっている。しかし、LLMは世代間、系統的な位置バイアスを示すことが観察された。 3つのMCQ生成タスクにおける10のLLMと5の視覚言語モデル(VLM)による広範囲な実験を通して、これらのバイアスがモデルファミリ内に出現し、モデルファミリ内に類似したパターンが現れることを示す。基礎となるメカニズムを解明するため,質問の隠れ表現が正解位置の予測信号を符号化する探索実験を行い,回答位置が生成中に暗黙的に計画される可能性が示唆された。この知見に基づいて,アクティベーションステアリングを適用して内部表現を操作し,応答位置に影響を与える。以上の結果から,ステアリングは位置選好を部分的に制御し,解答位置分布を実質的にシフトさせることができることがわかった。本研究は,LCMにおける暗黙的位置計画の実践的枠組みを提供し,信頼性の高いMCQ構築と評価のための制御可能な生成の重要性を強調した。

関連論文リスト

Do Reasoning Models Ask Better Questions? A Formal Information-Theoretic Analysis on Multi-Turn LLM Games [0.0]
大きな言語モデル(LLM)は多くのタスクで優れていますが、ユーザの要求のあいまいさを解決するための重要な能力に苦労しています。本稿では,LLMがイエス/ノー質問を通じてどのように情報を収集するかを定量的に測定する多元対話フレームワークを提案する。実験により, 評価モデルの中で, 明示的な推論能力を持つモデルでは, ターン当たりのIGが向上し, より少ないステップで解に到達することが実証された。
論文参考訳（メタデータ） (2026-01-25T06:38:15Z)
Hearing the Order: Investigating Selection Bias in Large Audio-Language Models [51.69003519291754]
大規模オーディオ言語モデル(LALM)は、注文された選択肢に対する推論を含むタスクでしばしば使用される。本稿では,この問題をLALMで同定し,解析する。
論文参考訳（メタデータ） (2025-10-01T08:00:58Z)
Benchmarking and Mitigating MCQA Selection Bias of Large Vision-Language Models [2.393011821499345]
大規模視覚言語モデル(LVLM)における選択バイアスの存在と性質について検討する。一般および文脈的プロンプトからアンサンブルバイアスベクトルを推定する推論時間ロジットレベルのデバイアス法を提案する。本手法はリトレーニングなしでバイアスを軽減し,冷凍LVLMと互換性がある。
論文参考訳（メタデータ） (2025-09-20T20:45:47Z)
Where to show Demos in Your Prompt: A Positional Bias of In-Context Learning [19.313795358097483]
In-context Learning (ICL)は、大規模言語モデル(LLM)の重要な新興能力である。本稿では,ICLの新たな位置バイアスを初めて明らかにした。我々は,デモの位置,システムプロンプト,ユーザメッセージが変化すると,予測と精度が劇的に低下するのを観察する。
論文参考訳（メタデータ） (2025-07-30T17:59:46Z)
Self-ensemble: Mitigating Confidence Mis-calibration for Large Language Models [67.62810111789338]
大規模言語モデルでは,複数問合せ質問に対する信頼度歪みが問題となる。この問題を解決するために自己組織化を提案する。 3つのLLMおよびデータセットの実験結果から,自己アンサンブルが信頼歪問題に包括的に対処できることが示されている。
論文参考訳（メタデータ） (2025-06-02T17:59:29Z)
Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文参考訳（メタデータ） (2024-07-01T09:06:57Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文参考訳（メタデータ） (2023-09-07T17:44:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。