論文の概要: Evidence-Bound Autonomous Research (EviBound): A Governance Framework for Eliminating False Claims
- arxiv url: http://arxiv.org/abs/2511.05524v1
- Date: Tue, 28 Oct 2025 17:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.016061
- Title: Evidence-Bound Autonomous Research (EviBound): A Governance Framework for Eliminating False Claims
- Title(参考訳): エビデンス・バウンド・自律研究(EviBound):偽主張の排除のためのガバナンス・フレームワーク
- Authors: Ruiying Chen,
- Abstract要約: EviBoundは、二重ガバナンスゲートを通じて偽のクレームを排除するエビデンスベースの実行フレームワークである。
事前実行承認ゲートは、コードが実行される前に受け入れ基準スキーマを検証する。
実行後検証ゲートは、MLflow APIクエリを通じてアーティファクトを検証する。
- 参考スコア(独自算出の注目度): 0.609170287691728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based autonomous research agents report false claims: tasks marked "complete" despite missing artifacts, contradictory metrics, or failed executions. EviBound is an evidence-bound execution framework that eliminates false claims through dual governance gates requiring machine-checkable evidence. Two complementary gates enforce evidence requirements. The pre-execution Approval Gate validates acceptance criteria schemas before code runs, catching structural violations proactively. The post-execution Verification Gate validates artifacts via MLflow API queries (with recursive path checking) and optionally validates metrics when specified by acceptance criteria. Claims propagate only when backed by a queryable run ID, required artifacts, and FINISHED status. Bounded, confidence-gated retries (typically 1-2 attempts) recover from transient failures without unbounded loops. The framework was evaluated on 8 benchmark tasks spanning infrastructure validation, ML capabilities, and governance stress tests. Baseline A (Prompt-Level Only) yields 100% hallucination (8/8 claimed, 0/8 verified). Baseline B (Verification-Only) reduces hallucination to 25% (2/8 fail verification). EviBound (Dual Gates) achieves 0% hallucination: 7/8 tasks verified and 1 task correctly blocked at the approval gate, all with only approximately 8.3% execution overhead. This package includes execution trajectories, MLflow run IDs for all verified tasks, and a 4-step verification protocol. Research integrity is an architectural property, achieved through governance gates rather than emergent from model scale.
- Abstract(参考訳): LLMベースの自律的な研究機関は、誤った主張を報告している: タスクは、欠陥のある成果物、矛盾する指標、あるいは実行が失敗したにもかかわらず「完全」である。
EviBoundは、マシンチェック可能なエビデンスを必要とするデュアルガバナンスゲートを通じて、偽のクレームを排除するエビデンスバウンド実行フレームワークである。
2つの補助ゲートは証拠要求を強制する。
事前実行承認ゲートは、コードが実行される前に受け入れ基準スキーマを検証し、構造上の違反を積極的にキャッチする。
実行後検証ゲートはMLflow APIクエリによるアーティファクトの検証(再帰パスチェック)と、受け入れ基準によって指定されたメトリクスの任意検証を行う。
クレームはクエリ可能な実行ID、必要なアーティファクト、FINISHEDステータスによってのみ伝搬する。
境界付き、信頼された再試行(典型的には1-2試行)は、非有界ループのない過渡的障害から回復する。
このフレームワークは、インフラストラクチャ検証、ML機能、ガバナンスストレステストにまたがる8つのベンチマークタスクで評価された。
ベースラインA(Prompt-Level Only)は100%幻覚を生じる(8/8、0/8)。
ベースラインB (Verification-Only) は幻覚を25%に減らす(2/8フェイル検証)。
EviBound(Dual Gates)は7/8タスクの検証と1タスクの承認ゲートで正しくブロックされ、実行オーバーヘッドは約8.3%である。
このパッケージには、実行軌跡、検証されたすべてのタスクに対するMLflow実行ID、および4ステップの検証プロトコルが含まれている。
研究の完全性は、モデルスケールから創発されるのではなく、ガバナンスゲートを通じて達成されるアーキテクチャ上の特性である。
関連論文リスト
- Sherlock: Reliable and Efficient Agentic Workflow Execution [44.30588192569476]
大規模言語モデル(LLM)は、従来のアプリケーションを置き換える傾向にある。
あるステップにおける不正または部分的に正しい出力は、その後の段階を通じて伝播または増幅することができる。
すべてのステップを検証することは、大きなレイテンシとコストオーバーヘッドをもたらす。
提案手法であるSherlockは,エージェントの反実解析を用いて,エラー発生ノードを同定し,コスト最適検証器を選択的にアタッチする。
論文 参考訳(メタデータ) (2025-11-01T00:17:57Z) - Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math [80.46254366870447]
私たちは500時間以上の人的労力で生成された段階レベルの検証ベンチマークであるHard2Verifyを紹介します。
我々は29人の生成的批評家とプロセス報酬モデルを評価し、いくつかの点を超えて、オープンソースの検証者がクローズドソースモデルを評価することを実証した。
論文 参考訳(メタデータ) (2025-10-15T16:50:54Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence [64.95492752484171]
GenAudit - 文書基底タスクの事実チェック LLM 応答を支援するためのツール。
GenAuditは、レファレンス文書でサポートされていないクレームを修正したり削除したりすることでLCMレスポンスを編集することを提案し、また、サポートしているように見える事実の参照から証拠を提示する。
GenAuditは、さまざまなドメインから文書を要約する際に、8つの異なるLCM出力でエラーを検出することができる。
論文 参考訳(メタデータ) (2024-02-19T21:45:55Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。