論文の概要: From Fluent to Verifiable: Claim-Level Auditability for Deep Research Agents
- arxiv url: http://arxiv.org/abs/2602.13855v1
- Date: Sat, 14 Feb 2026 19:39:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.514745
- Title: From Fluent to Verifiable: Claim-Level Auditability for Deep Research Agents
- Title(参考訳): フルエントから検証へ:ディープリサーチエージェントのクレームレベル聴取性
- Authors: Razeen A Rasheed, Somnath Banerjee, Animesh Mukherjee, Rima Hazra,
- Abstract要約: 研究生成が安価になるにつれて、監査可能性がボトルネックになる、と我々は主張する。
この観点からは,ディープリサーチエージェントの第一級設計および評価対象として,クレームレベルの監査性を提案する。
- 参考スコア(独自算出の注目度): 8.49451413641847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A deep research agent produces a fluent scientific report in minutes; a careful reader then tries to verify the main claims and discovers the real cost is not reading, but tracing: which sentence is supported by which passage, what was ignored, and where evidence conflicts. We argue that as research generation becomes cheap, auditability becomes the bottleneck, and the dominant risk shifts from isolated factual errors to scientifically styled outputs whose claim-evidence links are weak, missing, or misleading. This perspective proposes claim-level auditability as a first-class design and evaluation target for deep research agents, distills recurring long-horizon failure modes (objective drift, transient constraints, and unverifiable inference), and introduces the Auditable Autonomous Research (AAR) standard, a compact measurement framework that makes auditability testable via provenance coverage, provenance soundness, contradiction transparency, and audit effort. We then argue for semantic provenance with protocolized validation: persistent, queryable provenance graphs that encode claim--evidence relations (including conflicts) and integrate continuous validation during synthesis rather than after publication, with practical instrumentation patterns to support deployment at scale.
- Abstract(参考訳): ディープリサーチエージェントは、数分で流動的な科学的レポートを作成し、注意深い読者は、主要な主張を検証し、実際のコストは読み取りではなく、どの文がどの文で、どの文が無視され、どこで証拠が矛盾しているかを確認する。
研究生成が安価になるにつれて、監査可能性がボトルネックとなり、主要なリスクは、独立した事実エラーから、クレーム・エビデンス・リンクが弱い、欠落している、あるいは誤解を招く科学的スタイルのアウトプットへとシフトする。
この観点からは、ディープリサーチエージェントの第一級設計および評価対象としてのクレームレベル監査可能性、長期水平障害モード(オブジェクトドリフト、過渡的制約、検証不能推論)の蒸留、およびオーディタブル自律調査(AAR)標準の導入、すなわち、オーディタビリティを前例のカバレッジ、前例の健全性、矛盾する透明性、監査作業を通じて検証可能にするコンパクトな測定フレームワークを提案する。
永続的でクエリ可能な証明グラフで、クレーム-エビデンス関係(競合を含む)を符号化し、出版後ではなく、合成中の連続的な検証を、大規模なデプロイメントをサポートするための実用的な計測パターンと統合する。
関連論文リスト
- CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。
本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。
我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-26T19:17:39Z) - Think Locally, Explain Globally: Graph-Guided LLM Investigations via Local Reasoning and Belief Propagation [5.191980417814362]
LLMエージェントは、ほとんどの環境が静的で、必要な情報がモデルのコンテキストウインドウに適合する場合、排他的になる。
直腸型薬剤は、この体制では特に脆い。
本稿では,LLMが限定的な局所的エビデンスマイニングとラベリングを行うためのフレームワークであるEoGを提案する。
論文 参考訳(メタデータ) (2026-01-25T17:27:19Z) - Preventing the Collapse of Peer Review Requires Verification-First AI [49.995126139461085]
我々は、真理結合、すなわち、過度に科学的真理をトラックする場所のスコアの厳密さを提案する。
プロキシ・ソブリン評価に向けた相転移を駆動する2つの力の形式化を行う。
論文 参考訳(メタデータ) (2026-01-23T17:17:32Z) - PaperAudit-Bench: Benchmarking Error Detection in Research Papers for Critical Automated Peer Review [54.141490756509306]
本稿では、エラーデータセットであるPaperAudit-Datasetと、自動レビューフレームワークであるPaperAudit-Reviewの2つのコンポーネントからなるPaperAudit-Benchを紹介する。
PaperAudit-Benchの実験では、モデルと検出深さの誤差検出可能性に大きなばらつきが示された。
本研究では,SFTおよびRLによる軽量LLM検出器のトレーニングをサポートし,計算コストの削減による効率的な誤り検出を実現する。
論文 参考訳(メタデータ) (2026-01-07T04:26:12Z) - DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - Audit the Whisper: Detecting Steganographic Collusion in Multi-Agent LLMs [0.0]
Audit the Whisperは、理論、ベンチマーク設計、検出、検証にまたがるカンファレンスグレードの研究成果物である。
i) パラフレーズ, レート制限, 役割置換などの介入が, ペアリングしたKullback-Leibler診断によって定量的なペナルティの操作を課すことを示すチャネル容量分析を行った。
我々は、匿名化された再生スクリプト、匿名化されたマニフェスト、ドキュメントをリリースし、外部監査官がすべての図を再現し、二重盲検要件を満たし、最小限の努力でフレームワークを拡張します。
論文 参考訳(メタデータ) (2025-10-05T17:51:52Z) - Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:56:59Z) - CRAVE: A Conflicting Reasoning Approach for Explainable Claim Verification Using LLMs [15.170312674645535]
CRAVE は、説明可能なクレーム VErification に対する Conflicting Reasoning Approach である。
大規模な言語モデルによって推論される矛盾する理性に基づいて、複雑なクレームを検証することができる。
CRAVEは最先端の手法よりもはるかに優れた性能を実現している。
論文 参考訳(メタデータ) (2025-04-21T07:20:31Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Towards Effective Extraction and Evaluation of Factual Claims [1.8262547855491458]
LLM(Large Language Models)が生成する長文コンテンツを事実チェックするための一般的な戦略は、独立して検証可能な単純なクレームを抽出することである。
本稿では,ファクトチェックの文脈におけるクレーム抽出と,このフレームワークを適用するための自動化された,スケーラブルで,かつレプリケート可能な手法を提案する。
また, LLMに基づくクレーム抽出手法であるCrimifyを導入し, 評価フレームワークにおける既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-15T16:58:05Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z) - LongChecker: Improving scientific claim verification by modeling
full-abstract context [38.73116177387815]
科学的クレーム検証のためのLongCheckerシステムについて紹介する。
科学的主張と証拠を含む研究の要約が与えられた後、LongCheckerは正当性ラベルを予測し、支持する有理性を特定する。
利用可能なすべてのコンテキストに基づいてラベル決定を行うことで、LongCheckerはこの種の理解を必要とするケースでより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-02T23:37:16Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。