論文の概要: OI-Bench: An Option Injection Benchmark for Evaluating LLM Susceptibility to Directive Interference
- arxiv url: http://arxiv.org/abs/2601.13300v1
- Date: Mon, 19 Jan 2026 18:56:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.015676
- Title: OI-Bench: An Option Injection Benchmark for Evaluating LLM Susceptibility to Directive Interference
- Title(参考訳): OI-Bench: 指向性干渉に対するLCM感受性評価のためのオプションインジェクションベンチマーク
- Authors: Yow-Fu Liou, Yu-Chien Tang, Yu-Hsiang Liu, An-Zi Yen,
- Abstract要約: 大きな言語モデル(LLM)のベンチマークは、その能力、制限、堅牢性を理解する上で非常に重要です。
提案手法では,MCQA (Multi-choice Question answering) インターフェースを改良するベンチマーク手法であるオプションインジェクションを導入する。
OI-Benchは、知識、推論、コモンセンスタスクにまたがる3000の質問のベンチマークである。
攻撃成功率,行動応答を分析し,推論時間からトレーニング後アライメントまでの緩和戦略について検討した。
- 参考スコア(独自算出の注目度): 5.418299350534956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarking large language models (LLMs) is critical for understanding their capabilities, limitations, and robustness. In addition to interface artifacts, prior studies have shown that LLM decisions can be influenced by directive signals such as social cues, framing, and instructions. In this work, we introduce option injection, a benchmarking approach that augments the multiple-choice question answering (MCQA) interface with an additional option containing a misleading directive, leveraging standardized choice structure and scalable evaluation. We construct OI-Bench, a benchmark of 3,000 questions spanning knowledge, reasoning, and commonsense tasks, with 16 directive types covering social compliance, bonus framing, threat framing, and instructional interference. This setting combines manipulation of the choice interface with directive-based interference, enabling systematic assessment of model susceptibility. We evaluate 12 LLMs to analyze attack success rates, behavioral responses, and further investigate mitigation strategies ranging from inference-time prompting to post-training alignment. Experimental results reveal substantial vulnerabilities and heterogeneous robustness across models. OI-Bench is expected to support more systematic evaluation of LLM robustness to directive interference within choice-based interfaces.
- Abstract(参考訳): 大きな言語モデル(LLM)のベンチマークは、その能力、制限、堅牢性を理解する上で非常に重要です。
インターフェースアーティファクトに加えて、以前の研究では、LCM決定は社会的な手がかり、フレーミング、指示といった指示的なシグナルの影響を受け得ることが示されている。
そこで本研究では,MCQA (Multi-choice Question answering) インターフェースを改良したベンチマーク手法であるオプションインジェクションを導入する。
OI-Benchは、知識、推論、コモンセンスタスクにまたがる3000の質問のベンチマークであり、16種類の指示型が社会コンプライアンス、ボーナスフレーミング、脅威フレーミング、教育干渉をカバーしている。
この設定は、選択インターフェースの操作とディレクティブベースの干渉を組み合わせることで、モデル感受性の体系的な評価を可能にする。
攻撃成功率,行動応答を分析し,推論時間からトレーニング後アライメントまでの緩和戦略について検討した。
実験結果から、モデル間の重大な脆弱性と不均一な堅牢性が確認された。
OI-Bench は LLM のロバスト性をより体系的に評価し、選択ベースインタフェース内でのディレクティブ干渉を支援することが期待されている。
関連論文リスト
- Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity [45.92643973404507]
我々は,協調型モデルが,操作的プロンプト戦略のクラスであるpreference-Undermining Attacks (PUA) に対して脆弱であるかどうかを検討する。
驚くべきことに、より高度なモデルは、時にはマニピュティブなプロンプトに影響を受けやすい。
論文 参考訳(メタデータ) (2026-01-10T15:16:23Z) - Selective Adversarial Attacks on LLM Benchmarks [1.6307653659652344]
広範に使用されているベンチマークMMLUに対する選択的敵攻撃について検討した。
選択的な敵攻撃が存在し、相対的なランクを実質的に変更できることがわかった。
本研究の結果は摂動を意識した報告とロバストネス評価を動機づけるものである。
論文 参考訳(メタデータ) (2025-10-15T14:08:44Z) - JudgeAgent: Knowledge-wise and Dynamic LLM Evaluation with Agent-as-Interviewer [19.09571232466437]
大規模言語モデル(LLM)のための動的評価パラダイムであるエージェント・アズ・インタービューアを提案する。
現在のベンチマークや動的相互作用のパラダイムとは異なり、エージェント・アズ・インタービューアはエージェントを使用して動的マルチターン質問生成においてより広く深い知識を得るために知識ツールを呼び出します。
我々は、知識駆動型合成をエージェントのツールとして活用し、戦略指導として難易度スコアリングを利用する知識ワイドな動的評価フレームワークであるJiceAgentを開発する。
論文 参考訳(メタデータ) (2025-09-02T08:52:16Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options [2.1184929769291294]
本研究は,LLMの命令追従能力と批判的推論とのバランスを評価するための新しいフレームワークを提案する。
トレーニング後のアライメントモデルでは,無効なオプションの選択がデフォルトとなることが多いが,ベースモデルでは,モデルサイズに合わせてスケールするリファリング機能が改善されている。
さらに、同様の指示追従バイアスを示す並列人間の研究を行い、これらのバイアスがアライメントに使用される人間のフィードバックデータセットを通してどのように伝播するかを示唆した。
論文 参考訳(メタデータ) (2024-08-27T19:27:43Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning [36.400896909161006]
我々は積極的に質問を行い、より多くの情報を集め、確実に応答するシステムを開発する。
LLMの問合せ能力を評価するためのベンチマーク - MediQ を導入する。
論文 参考訳(メタデータ) (2024-06-03T01:32:52Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。