論文の概要: Instruction Boundary: Quantifying Biases in LLM Reasoning under Various Coverage
- arxiv url: http://arxiv.org/abs/2509.20278v1
- Date: Wed, 24 Sep 2025 16:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.89561
- Title: Instruction Boundary: Quantifying Biases in LLM Reasoning under Various Coverage
- Title(参考訳): 命令境界:種々の被覆下でのLDM推論におけるビアーゼの定量化
- Authors: Zipeng Ling, Yuehao Tang, Chen Huang, Shuliang Liu, Gaoyang Jiang, Shenghong Fu, Junqi Yang, Yao Wan, Jiawan Zhang, Kejia Huang, Xuming Hu,
- Abstract要約: 大規模言語モデル(LLM)推論は長年、ドメイン間の問題解決の強力なツールとみなされてきた。
バイアスのあるプロンプトや不完全なプロンプトを — しばしば意図せずに — 提供できるため、LLMは誤解され、信頼性が損なわれ、リスクが生じる可能性がある。
BiasDetectorは、3つの命令タイプから生じるバイアスを測定するフレームワークである。
- 参考スコア(独自算出の注目度): 34.247904738521136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-language-model (LLM) reasoning has long been regarded as a powerful tool for problem solving across domains, providing non-experts with valuable advice. However, their limitations - especially those stemming from prompt design - remain underexplored. Because users may supply biased or incomplete prompts - often unintentionally - LLMs can be misled, undermining reliability and creating risks. We refer to this vulnerability as the Instruction Boundary. To investigate the phenomenon, we distill it into eight concrete facets and introduce BiasDetector, a framework that measures biases arising from three instruction types: complete, redundant, and insufficient. We evaluate several mainstream LLMs and find that, despite high headline accuracy, substantial biases persist in many downstream tasks as a direct consequence of prompt coverage. Our empirical study confirms that LLM reasoning reliability can still be significantly improved. We analyze the practical impact of these biases and outline mitigation strategies. Our findings underscore the need for developers to tackle biases and for users to craft options carefully.
- Abstract(参考訳): 大規模言語モデル(LLM)推論は長年、ドメイン間の問題解決の強力なツールとみなされてきた。
しかし、それらの制限、特に急進的な設計から生じる制限は、まだ未調査のままである。
バイアスのあるプロンプトや不完全なプロンプトを — しばしば意図せずに — 提供できるため、LLMは誤解され、信頼性が損なわれ、リスクが生じる可能性がある。
この脆弱性を命令境界と呼ぶ。
この現象を8つのコンクリート面に蒸留し, 完全, 冗長, 不十分の3種類の命令から生じるバイアスを測定する枠組みであるBiasDetectorを導入する。
我々はいくつかの主要なLCMを評価し、高い見出し精度にもかかわらず、多くの下流タスクにおいてかなりのバイアスが即時カバレッジの直接的な結果として持続していることを見出した。
実験により, LLM推論の信頼性は依然として著しく改善されていることが確認された。
これらのバイアスの実践的影響を分析し、緩和戦略を概説する。
私たちの調査結果は、開発者がバイアスに対処し、ユーザが慎重に選択肢を作らなければならないことを明確に示しています。
関連論文リスト
- Reasoning Models Can be Easily Hacked by Fake Reasoning Bias [59.79548223686273]
我々は、Reasoning Theatre Bias (RTB)を評価するための総合的なベンチマークTheATERを紹介する。
簡単なクイズとフェイク・オブ・サートを含む6種類のバイアスタイプについて検討した。
我々は、RTBの最も強力な形式として、'hallow reasoning'-plausibleだが欠陥のある議論を識別する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - Don't Take the Premise for Granted: Evaluating the Premise Critique Ability of Large Language Models [11.379764847748378]
大規模言語モデル(LLM)は、しばしば欠陥や矛盾した前提を受け入れ、非効率な推論と信頼できない出力をもたらす。
このことは、入力前提におけるエラーを積極的に識別し、明示する能力として定義されたLSMのためのtextbfPremise Critique Aabilities を持つことの重要性を強調している。
我々は,3つの難易度に4つのエラータイプを組み込んで設計したtextbfPremise Critique Bench (PCBench) を,多面的評価指標と組み合わせて紹介する。
論文 参考訳(メタデータ) (2025-05-29T17:49:44Z) - RvLLM: LLM Runtime Verification with Domain Knowledge [8.15645390408007]
大規模言語モデル(LLM)は、例外的なテキスト理解と生成能力のため、AIパラダイムの主流として現れている。
不整合または誤ったアウトプットを生成する傾向は、特に正確さと信頼性を必要とする高い領域において、その信頼性に挑戦する。
既存の研究は、多くの場合、ドメイン固有の知識を統合する可能性を見越して、汎用シナリオにおけるモデル誤動作の検出と緩和に重点を置いている。
論文 参考訳(メタデータ) (2025-05-24T08:21:44Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。