論文の概要: AutoVerifier: An Agentic Automated Verification Framework Using Large Language Models
- arxiv url: http://arxiv.org/abs/2604.02617v1
- Date: Fri, 03 Apr 2026 01:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.264991
- Title: AutoVerifier: An Agentic Automated Verification Framework Using Large Language Models
- Title(参考訳): AutoVerifier: 大規模言語モデルを用いたエージェント自動検証フレームワーク
- Authors: Yuntao Du, Minh Dinh, Kaiyuan Zhang, Ninghui Li,
- Abstract要約: AutoVerifierは、技術的クレームのエンドツーエンド検証を自動化するエージェントフレームワークである。
すべての技術的主張を形式の構造的クレームトリプルに分解する。
新興技術の妥当性と成熟度を確実に評価することができる。
- 参考スコア(独自算出の注目度): 8.006071608749648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific and Technical Intelligence (S&TI) analysis requires verifying complex technical claims across rapidly growing literature, where existing approaches fail to bridge the verification gap between surface-level accuracy and deeper methodological validity. We present AutoVerifier, an LLM-based agentic framework that automates end-to-end verification of technical claims without requiring domain expertise. AutoVerifier decomposes every technical assertion into structured claim triples of the form (Subject, Predicate, Object), constructing knowledge graphs that enable structured reasoning across six progressively enriching layers: corpus construction and ingestion, entity and claim extraction, intra-document verification, cross-source verification, external signal corroboration, and final hypothesis matrix generation. We demonstrate AutoVerifier on a contested quantum computing claim, where the framework, operated by analysts with no quantum expertise, automatically identified overclaims and metric inconsistencies within the target paper, traced cross-source contradictions, uncovered undisclosed commercial conflicts of interest, and produced a final assessment. These results show that structured LLM verification can reliably evaluate the validity and maturity of emerging technologies, turning raw technical documents into traceable, evidence-backed intelligence assessments.
- Abstract(参考訳): 科学技術インテリジェンス(S&TI)分析では、急速に成長する文献にまたがる複雑な技術的クレームの検証が必要であり、既存のアプローチでは、表面レベルの精度とより深い方法論的妥当性の間の検証ギャップを埋めることができない。
我々は、ドメインの専門知識を必要とせずに、技術的クレームのエンドツーエンドの検証を自動化するLLMベースのエージェントフレームワークであるAutoVerifierを提案する。
AutoVerifierは、すべての技術的主張をフォームの構造化クレームトリプル(Subject, Predicate, Object)に分解し、コーパス構築と取り込み、エンティティとクレーム抽出、ドキュメント内検証、クロスソース検証、外部信号のコロンボレーション、最終的な仮説行列生成の6層にわたる構造化推論を可能にする知識グラフを構築する。
そこでは、量子知識のないアナリストが運用するフレームワークで、対象論文内の過剰評価とメトリックの不整合を自動的に識別し、ソース間の矛盾をトレースし、関心の商業的衝突を未公表で明らかにし、最終的な評価を行った。
これらの結果から,構造化LDM検証は,先進技術の有効性と成熟度を確実に評価し,生技術文書をトレース可能な証拠に基づくインテリジェンス評価に転換できることが示された。
関連論文リスト
- AgentFoX: LLM Agent-Guided Fusion with eXplainability for AI-Generated Image Detection [21.02452809723292]
動的多相解析プロセスとしてAIGI検出を再定義するフレームワークである textbfAgentFoX を提案する。
本手法では,キュレートされた知識ベースによって誘導される高速積分融合機構を用いる。
AgentFoXは、その判断を裏付ける詳細な人間可読な法医学レポートを作成している。
論文 参考訳(メタデータ) (2026-03-24T12:10:21Z) - Agentic AI-based Coverage Closure for Formal Verification [1.9085643829335266]
本研究では,Large Language Model (LLM) 対応のGenerative AI (GenAI) を用いたエージェントAI駆動型ワークフローを提案する。
オープンソースおよび内部設計のベンチマークでは、カバレッジメトリクスが測定可能な増加を示し、その改善は設計の複雑さと相関している。
論文 参考訳(メタデータ) (2026-03-03T16:35:03Z) - DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images [96.43608872116347]
AnomReasonは4倍のtextbfAnomAgentのような構造化アノテーションを備えた大規模ベンチマーク
AnomReasonとAnomAgentは、AI生成画像の意味的妥当性の測定と改善の基盤となっている。
論文 参考訳(メタデータ) (2025-10-11T14:09:24Z) - Autoformalizer with Tool Feedback [52.334957386319864]
自動形式化は、数学的問題を自然言語から形式的ステートメントに変換することによって、ATP(Automated Theorem Proving)のデータ不足に対処する。
既存のフォーミュラライザは、構文的妥当性とセマンティック一貫性を満たす有効なステートメントを一貫して生成することに苦慮している。
本稿では,ツールフィードバックを用いたオートフォーマライザ (ATF) を提案する。
論文 参考訳(メタデータ) (2025-10-08T10:25:12Z) - Propose and Rectify: A Forensics-Driven MLLM Framework for Image Manipulation Localization [49.71303998618939]
本稿では,意味論的推論と法科学的な分析を橋渡しするPropose-Rectifyフレームワークを提案する。
提案手法は,具体的技術実証により,初期セマンティックな提案が体系的に検証され,拡張されることを保証し,包括的検出精度と局所化精度を実現する。
論文 参考訳(メタデータ) (2025-08-25T12:43:53Z) - Towards Robust Fact-Checking: A Multi-Agent System with Advanced Evidence Retrieval [1.515687944002438]
デジタル時代における誤報の急速な拡散は、世論に重大な課題をもたらす。
従来の人間主導のファクトチェック手法は信頼できるが、オンラインコンテンツの量と速度に苦慮している。
本稿では, 精度, 効率, 説明性を向上する自動ファクトチェックのための新しいマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-06-22T02:39:27Z) - FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。
我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。
この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文 参考訳(メタデータ) (2024-11-08T21:26:57Z) - Synthetic Disinformation Attacks on Automated Fact Verification Systems [53.011635547834025]
本研究では,2つのシミュレーション環境において,自動ファクトチェッカーの合成正反対証拠に対する感度について検討する。
これらのシステムでは,これらの攻撃に対して大幅な性能低下がみられた。
偽情報の発生源としての現代のNLGシステムの脅威の増大について論じる。
論文 参考訳(メタデータ) (2022-02-18T19:01:01Z) - Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。
本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。
この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T05:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。