論文の概要: Quantifying Cross-Query Contradictions in Multi-Query LLM Reasoning
- arxiv url: http://arxiv.org/abs/2604.14525v1
- Date: Thu, 16 Apr 2026 01:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.671902
- Title: Quantifying Cross-Query Contradictions in Multi-Query LLM Reasoning
- Title(参考訳): マルチクエリLLM推論におけるクロスクエリの矛盾の定量化
- Authors: Rohit Kumar Salla, Ramya Manasa Amancherla, Manoj Saravanan,
- Abstract要約: 大規模言語モデルは、複数のクエリを推論する際に相互に矛盾する答えを生成する。
ケースファイル論理的整合性: 相互依存クエリ間でグローバルに満足できる信念状態を維持する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models frequently produce mutually inconsistent answers when reasoning over multiple related queries. We study case-file logical consistency: maintaining a globally satisfiable belief state across interdependent queries. We introduce a benchmark of 390 multi-query reasoning instances with entailment/contradiction/unknown labels and propose set-level metrics including Case Satisfiability Rate, Contradiction Density and Revision Cost. Our solver-augmented approach extracts commitments, verifies global satisfiability and performs counterexample-guided repair. Across four reasoning domains, our method substantially reduces cross-query contradictions (SetCons: 0.56 to 0.94) while preserving per-query accuracy, demonstrating that global coherence is critical for robust multi-query reasoning.
- Abstract(参考訳): 大規模言語モデルは、複数の関連するクエリを推論する際に、相互に矛盾する答えをしばしば生成する。
ケースファイル論理的整合性: 相互依存クエリ間でグローバルに満足できる信念状態を維持する。
本稿では,包含・対照・未知ラベルを持つ390個のマルチクエリ推論インスタンスのベンチマークを導入し,ケース満足度率,コントラディション密度,リビジョンコストなどの設定レベル指標を提案する。
提案手法は, コミットメントを抽出し, グローバルな満足度を検証し, 反例誘導修復を行う。
4つの推論領域にわたって、我々の手法は、複数クエリ間の矛盾(SetCons:0.56から0.94)を大幅に低減しつつ、クエリ毎の精度を維持しながら、グローバルコヒーレンスが堅牢なマルチクエリ推論に重要であることを示す。
関連論文リスト
- Empirical Evidence of Complexity-Induced Limits in Large Language Models on Finite Discrete State-Space Problems with Explicit Validity Constraints [0.6524460254566904]
問題複雑性の増大にともなうLarge Reasoning Models (LRM) における推論の頑健さを系統的に評価した。
我々は,9つの古典的推論タスク,ブール満足度,クリプトリズム,グラフカラーニング,河川横断,ハノイ塔,ウォータージャグ,チェッカージャンプ,スドゥーク,ルービックキューブを構築した。
非一貫性な推論トレース,制約違反,状態追跡の喪失,確実な不正確なアウトプットを伴って,50%を超える相当な精度低下を観測する。
論文 参考訳(メタデータ) (2026-04-15T00:35:22Z) - Less Is More for Multi-Step Logical Reasoning of LLM Generalisation Under Rule Removal, Paraphrasing, and Compression [3.3492355863487275]
大規模言語モデル(LLM)は多くの自然言語処理において高い性能を達成するが、論理規則系の構造的摂動下での一般化は依然として不十分である。
本研究では,4つの応力試験による推理信頼性の検証を行う制御評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-06T10:49:50Z) - Beware of Reasoning Overconfidence: Pitfalls in the Reasoning Process for Multi-solution Tasks [54.31998314008198]
大きな言語モデル(LLM)は、単一の正しい答えを必要とするタスクの推論において優れているが、マルチソリューションタスクでは不十分である。
我々はこの制限を、不完全解集合における不完全確実性を表現する傾向という、不確実な過信(textbfreasoning overconfidence)に起因している。
この仮説は, 思考経路の狭いセットに早急に収束すると, 過信が生じることを示唆するものである。
論文 参考訳(メタデータ) (2025-12-01T14:35:06Z) - CrossCheck-Bench: Diagnosing Compositional Failures in Multimodal Conflict Resolution [20.823419395675412]
CrossCheck-Benchは、マルチモーダル入力における矛盾検出を評価するための診断ベンチマークである。
タスクが知覚的マッチングから論理的矛盾検出に移行するにつれて、13の最先端の視覚言語モデルを評価し、一貫した性能低下を観察する。
論文 参考訳(メタデータ) (2025-11-19T12:17:15Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models [45.63440666848143]
MLLM(Multimodal Large Language Models)は、様々なモダリティの統合において顕著な進歩を見せている。
彼らの成功にもかかわらず、MLLMは会話の敵対的な入力に弱いままである。
我々は,最初に正しい回答を提供するモデルが,ユーザが提供する否定によってそのアウトプットを逆転するように説得される現象であるガスライティング否定攻撃について検討する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones? [65.43882564649721]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも矛盾する問題に悩まされている。
我々はConsisEvalベンチマークを開発し、各エントリは厳密な難易度で2つの質問から構成される。
相対的整合性スコアによる整合性向上の可能性を分析する。
論文 参考訳(メタデータ) (2024-06-18T17:25:47Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。