論文の概要: Pramana: A Protocol-Layer Treatment of Claim Verification in Autonomous Agent Networks
- arxiv url: http://arxiv.org/abs/2605.20312v1
- Date: Tue, 19 May 2026 17:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.292525
- Title: Pramana: A Protocol-Layer Treatment of Claim Verification in Autonomous Agent Networks
- Title(参考訳): Pramana: 自律エージェントネットワークにおけるクレーム検証のプロトコル層処理
- Authors: Ravi Kiran Kadaboina,
- Abstract要約: 確率的検証パターン(自己整合性投票、レビュアー LLM アンサンブル)は、人工物ではなく、判断を生成する。
Pramana は、ワイヤフォーマットの欠如を定義している。すべての連続エージェント出力は、タイプ付き ClaimAttestation でラップされ、4つの変種のうちの1つでラップされる。
プラマナは3つの対称性を再現したモデル(38,563個の到達可能な状態、0個の不変な違反)でTLCの下で徹底的に検証された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents deployed in regulated domains must produce a verification artifact per consequential output: a record an auditor can re-execute offline, capturing what was claimed, against what source, by whom, when, and how. Production verification today splits into two unstandardized halves. Probabilistic verdict patterns (self-consistency voting, reviewer LLM ensembles) produce judgments, not artifacts. Artifact-producing patterns (RAG, tool-augmented traces, generator-verifier loops) produce vendor-specific records no external auditor can reconstruct without bespoke integration. Pramana defines the missing wire format. Every consequential agent output is wrapped in a typed ClaimAttestation with one of four variants (measurement, inference, analogy, citation), each paired with a verify() operation against the recorded source. verify() is deterministic for MeasurementClaim and CitationClaim. For InferenceClaim and AnalogyClaim, determinism is conditional on the oracle (audit-replayable when LLM-backed). The four-way typology derives from classical Indian epistemology (pramana, valid means of knowledge). The lifecycle is specified in TLA+ and exhaustively verified under TLC across three symmetry-reduced models: 38,563 distinct reachable states, zero invariant violations. The Python reference implementation passes 84 tests. An A2A and MCP wire-extension manifest layers three deployment-grade invariants: reachability, SLA bound, and offline re-verifiability. An exploratory pilot (n=100, 2,275 reviewer calls) probes LLM-as-judge in code generation. The strongest observation is a 40-percentage-point raw FPR delta across corpora, consistent with reference-solution quality contributing significantly. The pilot does not validate Pramana on its own; the structural argument and formal verification do that.
- Abstract(参考訳): 監査官がオフラインで再実行し、主張されたものをキャプチャし、どのソース、誰が、いつ、どのように処理するかを記録。
現在、生産の検証は2つの標準化されていないハーフに分割されている。
確率的検証パターン(自己整合性投票、レビュアー LLM アンサンブル)は、人工物ではなく判断を生成する。
成果物生成パターン(RAG、ツール拡張トレース、ジェネレータ検証ループ)はベンダ固有のレコードを生成します。
Pramana氏はワイヤフォーマットの欠如を定義している。
すべての逐次エージェント出力は4つの変種(測定、推論、アナロジー、引用)のうちの1つを持つタイプ付き ClaimAttestation にラップされ、それぞれが記録されたソースに対して Valid() 操作とペアリングされる。
verify() は MeasurementClaim と CitationClaim に対して決定論的である。
InferenceClaim と AnalogyClaim は、決定論はオラクル上で条件付きである(LCM が支援されたとき、聴覚再生可能)。
4方向のタイポロジーは、古典インドの認識学(プラマナ、知識の有効な手段)に由来する。
ライフサイクルは TLA+ で特定され、TLC の下で3つの対称性が再現されたモデル(38,563 個の到達可能な状態、0 個の不変な違反)で徹底的に検証される。
Pythonのリファレンス実装は84のテストに合格する。
A2AとMPPのワイヤ拡張は、リーチビリティ、SLAバウンダリ、オフラインの再開発という、3つのデプロイメントグレードの不変性を示す。
探索パイロット(n=100, 2,275 のレビュアーコール)はコード生成において LLM-as-judge を探索する。
最強の観測は、コーパスを横断する40パーセントの生FPRデルタであり、基準溶出品質と大きく一致している。
パイロットはプラマナ自体を検証せず、構造的議論と形式的検証はそれを行う。
関連論文リスト
- Agentic Model Checking [12.832868209928039]
本稿では,LLMエージェントと境界モデルチェックバックエンドを結合するパラダイムを提案する。
我々は、BMC-Agentのアプローチをインスタンス化し、CとRustのLLM生成カーネルおよびコンパイラコード上で評価する。
論文 参考訳(メタデータ) (2026-05-20T17:25:52Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - NANOZK: Layerwise Zero-Knowledge Proofs for Verifiable Large Language Model Inference [0.0]
LLM推論を検証可能なゼロ知識証明システムであるメソッドを提案する。
我々のアプローチは、トランスフォーマー推論が自然に独立した層計算に分解されるという事実を生かしている。
EZKLと比較して、EZKLは70倍小さい証明と5.7倍速い証明時間をd=128で達成し、形式的な音質保証を維持している。
論文 参考訳(メタデータ) (2026-03-17T04:14:45Z) - interwhen: A Generalizable Framework for Verifiable Reasoning with Test-time Monitors [47.363850513075356]
実験時間検証フレームワークであるInterwhenを提案し, 与えられた検証結果に対して, 推論モデルの出力が有効であることを保証する。
検証された推論は、物理的な世界にエージェントを配置するといった高度なシナリオにおいて重要な目標である。
論文 参考訳(メタデータ) (2026-02-05T08:35:01Z) - DiFR: Inference Verification Despite Nondeterminism [5.879581944824945]
同じ推論プロセスを2回再実行することは、良質な数値ノイズのために異なる結果をもたらすことが多い。
Token-DiFRは、同一のランダムシードに条件付された信頼参照実装による予測と、生成されたトークンを比較して、推論出力を検証する手法である。
さらに,ランダムなプロジェクションを用いてアクティベーションをコンパクトな指紋に圧縮し,その後の検証を行う Activation-DiFR も導入する。
論文 参考訳(メタデータ) (2025-11-25T18:44:22Z) - Memory in Large Language Models: Mechanisms, Evaluation and Evolution [8.158439933515131]
我々は,4つの分類法(パラメトリック,文脈,外部,手続き/エピソード)とメモリ四倍法(ロケーション,永続性,書き込み/アクセスパス,制御性)を提案する。
DMM Gov: DAPT/TAPT, PEFT, モデル編集(ROME, MEND, MEMIT, SERAC)、RAGをコーディネートして監査可能なループを形成する。
これにより、再現可能で、同等で、統制可能な、研究と展開のための座標系が得られる。
論文 参考訳(メタデータ) (2025-09-23T10:06:58Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Auditing AI models for Verified Deployment under Semantic Specifications [65.12401653917838]
AuditAIは、解釈可能な形式検証とスケーラビリティのギャップを埋める。
AuditAIは、画素空間の摂動のみを用いた検証の限界に対処しながら、検証と認定トレーニングのための制御されたバリエーションを得られるかを示す。
論文 参考訳(メタデータ) (2021-09-25T22:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。