論文の概要: Co-Sight: Enhancing LLM-Based Agents via Conflict-Aware Meta-Verification and Trustworthy Reasoning with Structured Facts
- arxiv url: http://arxiv.org/abs/2510.21557v1
- Date: Fri, 24 Oct 2025 15:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.520368
- Title: Co-Sight: Enhancing LLM-Based Agents via Conflict-Aware Meta-Verification and Trustworthy Reasoning with Structured Facts
- Title(参考訳): Co-Sight: コンフリクト・アウェアのメタ検証と構造化されたファクトによる信頼できる推論によるLCMエージェントの強化
- Authors: Hongwei Zhang, Ji Lu, Shiqing Jiang, Chenxiang Zhu, Li Xie, Chen Zhong, Haoran Chen, Yurui Zhu, Yongsheng Du, Yanqin Gao, Lingjun Huang, Baoli Wang, Fang Tan, Peng Zou,
- Abstract要約: Co-Sightは推論を偽造可能で監査可能なプロセスに変える。
コンフリクト・アウェア・メタ検証(CAMV)とTrustworthy Reasoning with Structured Facts(TRSF)の2つのメカニズム
- 参考スコア(独自算出の注目度): 18.221173068008603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon reasoning in LLM-based agents often fails not from generative weakness but from insufficient verification of intermediate reasoning. Co-Sight addresses this challenge by turning reasoning into a falsifiable and auditable process through two complementary mechanisms: Conflict-Aware Meta-Verification (CAMV) and Trustworthy Reasoning with Structured Facts (TRSF). CAMV reformulates verification as conflict identification and targeted falsification, allocating computation only to disagreement hotspots among expert agents rather than to full reasoning chains. This bounds verification cost to the number of inconsistencies and improves efficiency and reliability. TRSF continuously organizes, validates, and synchronizes evidence across agents through a structured facts module. By maintaining verified, traceable, and auditable knowledge, it ensures that all reasoning is grounded in consistent, source-verified information and supports transparent verification throughout the reasoning process. Together, TRSF and CAMV form a closed verification loop, where TRSF supplies structured facts and CAMV selectively falsifies or reinforces them, yielding transparent and trustworthy reasoning. Empirically, Co-Sight achieves state-of-the-art accuracy on GAIA (84.4%) and Humanity's Last Exam (35.5%), and strong results on Chinese-SimpleQA (93.8%). Ablation studies confirm that the synergy between structured factual grounding and conflict-aware verification drives these improvements. Co-Sight thus offers a scalable paradigm for reliable long-horizon reasoning in LLM-based agents. Code is available at https://github.com/ZTE-AICloud/Co-Sight/tree/cosight2.0_benchmarks.
- Abstract(参考訳): LLMをベースとした薬品の長期水平推論は、生成的弱点ではなく、中間的推論の不十分な検証に失敗することが多い。
Co-Sight氏はこの課題に対処するため、推論を2つの相補的なメカニズム、CAMV(Conflict-Aware Meta-Verification)とTRSF(Trustworthy Reasoning with Structured Facts)を通じて、偽造可能で監査可能なプロセスに変換する。
CAMVは、検証を競合識別とターゲットのファルシフィケーションとして再定義し、計算は完全な推論チェーンではなく、専門家エージェント間のホットスポットの不一致にのみ割り当てる。
これにより、検証コストは不整合の数に制限され、効率と信頼性が向上する。
TRSFは、構造化されたファクトモジュールを通じて、エージェント間でエビデンスを継続的に組織し、検証し、同期する。
検証され、追跡可能で、監査可能な知識を維持することで、すべての推論が一貫性のある、ソース検証された情報に基づいており、推論プロセス全体を通して透過的な検証をサポートすることを保証する。
TRSFとCAMVはともに閉じた検証ループを形成し、TRSFは構造化された事実を供給し、CAMVはそれらを選択的に偽造または強化し、透明で信頼できる推論をもたらす。
実証的に、Co-SightはGAIA(84.4%)とHumanity's Last Exam(35.5%)で最先端の精度を達成し、中国のSimpleQA(93.8%)で強い結果を得た。
アブレーション研究は、構造化された事実的根拠と矛盾認識による検証の相乗効果がこれらの改善を促進することを裏付けている。
したがって、Co-SightはLLMベースのエージェントの信頼性の高いロングホライゾン推論のためのスケーラブルなパラダイムを提供する。
コードはhttps://github.com/ZTE-AICloud/Co-Sight/tree/cosight2.0_benchmarksで入手できる。
関連論文リスト
- FaithCoT-Bench: Benchmarking Instance-Level Faithfulness of Chain-of-Thought Reasoning [62.452350134196934]
FaithCoT-Benchは、インスタンスレベルのCoT不信検出のための統一ベンチマークである。
我々の枠組みは差別的な決定問題として不誠実検出を定式化している。
FaithCoT-Bench は LLM のより解釈可能で信頼性の高い推論に向けた将来の研究の基盤となる。
論文 参考訳(メタデータ) (2025-10-05T05:16:54Z) - Veri-R1: Toward Precise and Faithful Claim Verification via Online Reinforcement Learning [53.05161493434908]
大規模言語モデル(LLM)によるクレーム検証は、その強力な推論能力と透過的な検証プロセスのため、近年注目を集めている。
我々は、LLMが検索エンジンと対話し、その計画、検索、推論行動を明確に形作る報酬信号を受け取ることができるオンライン強化学習フレームワークであるVeri-R1を紹介した。
実験の結果、Veri-R1は最大30%の精度で関節の精度を向上し、エビデンススコアを2倍にし、より大きなモデルを上回ることが示されている。
論文 参考訳(メタデータ) (2025-10-02T11:49:48Z) - VeriLLM: A Lightweight Framework for Publicly Verifiable Decentralized Inference [4.158412539499328]
大規模言語モデル(LLM)のための分散推論のための公開検証プロトコルを提案する。
同一GPUワーカのセット上で両方のロールを多重化する同型推論検証ネットワークを導入する。
我々は形式的なゲーム理論解析を提供し、インセンティブの下では、正直な推論と検証がナッシュ均衡を構成することを証明した。
論文 参考訳(メタデータ) (2025-09-29T04:07:32Z) - Towards Robust Fact-Checking: A Multi-Agent System with Advanced Evidence Retrieval [1.515687944002438]
デジタル時代における誤報の急速な拡散は、世論に重大な課題をもたらす。
従来の人間主導のファクトチェック手法は信頼できるが、オンラインコンテンツの量と速度に苦慮している。
本稿では, 精度, 効率, 説明性を向上する自動ファクトチェックのための新しいマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-06-22T02:39:27Z) - Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。
その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。
VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - CRAVE: A Conflicting Reasoning Approach for Explainable Claim Verification Using LLMs [15.170312674645535]
CRAVE は、説明可能なクレーム VErification に対する Conflicting Reasoning Approach である。
大規模な言語モデルによって推論される矛盾する理性に基づいて、複雑なクレームを検証することができる。
CRAVEは最先端の手法よりもはるかに優れた性能を実現している。
論文 参考訳(メタデータ) (2025-04-21T07:20:31Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Can LLMs Produce Faithful Explanations For Fact-checking? Towards
Faithful Explainable Fact-Checking via Multi-Agent Debate [75.10515686215177]
大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。
多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。
MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
論文 参考訳(メタデータ) (2024-02-12T04:32:33Z) - Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework [26.7264686036634]
大規模言語モデル(LLM)がNLPの標準となり、生成および推論タスクのパフォーマンスが向上した。
最も致命的な欠点の1つは、事実の正しさの欠如である。
非現実的なテキストを生成することは、パフォーマンスを低下させるだけでなく、アプリケーションの信頼性と妥当性を低下させる。
論文 参考訳(メタデータ) (2023-05-05T03:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。