論文の概要: Preventing the Collapse of Peer Review Requires Verification-First AI
- arxiv url: http://arxiv.org/abs/2601.16909v1
- Date: Fri, 23 Jan 2026 17:17:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.779254
- Title: Preventing the Collapse of Peer Review Requires Verification-First AI
- Title(参考訳): ピアレビューの崩壊を防ぐには検証ファーストAIが必要だ
- Authors: Lei You, Lele Cao, Iryna Gurevych,
- Abstract要約: 我々は、真理結合、すなわち、過度に科学的真理をトラックする場所のスコアの厳密さを提案する。
プロキシ・ソブリン評価に向けた相転移を駆動する2つの力の形式化を行う。
- 参考スコア(独自算出の注目度): 49.995126139461085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper argues that AI-assisted peer review should be verification-first rather than review-mimicking. We propose truth-coupling, i.e. how tightly venue scores track latent scientific truth, as the right objective for review tools. We formalize two forces that drive a phase transition toward proxy-sovereign evaluation: verification pressure, when claims outpace verification capacity, and signal shrinkage, when real improvements become hard to separate from noise. In a minimal model that mixes occasional high-fidelity checks with frequent proxy judgment, we derive an explicit coupling law and an incentive-collapse condition under which rational effort shifts from truth-seeking to proxy optimization, even when current decisions still appear reliable. These results motivate actions for tool builders and program chairs: deploy AI as an adversarial auditor that generates auditable verification artifacts and expands effective verification bandwidth, rather than as a score predictor that amplifies claim inflation.
- Abstract(参考訳): 本稿では、AIによるピアレビューは、レビューミスではなく、検証ファーストであるべきだと論じる。
レビューツールの適切な目的として,真理の結合,すなわち,過度に科学的真理をトラックする場所スコアの厳密さを提案する。
我々は、検証圧力が検証能力を上回った場合の検証圧力と、実際の改善がノイズから切り離すのが困難になった場合の信号収縮という、プロキシ・ソブリン評価への位相遷移を駆動する2つの力を定式化する。
時折高忠実度チェックと頻繁なプロキシ判断を混合する最小限のモデルでは、現在の決定が信頼されているとしても、明確な結合法則と、合理的な努力が真理探索からプロキシ最適化にシフトするインセンティブ-崩壊条件を導出する。
これらの結果は、ツールビルダーやプログラムチェアに対するアクションを動機付けている。AIを監査可能な検証アーティファクトを生成し、効果的な検証帯域を拡大する対向監査としてデプロイする。
関連論文リスト
- When to Trust the Cheap Check: Weak and Strong Verification for Reasoning [26.38833436936642]
我々は、強い検証と弱い検証の間の緊張を形式化する。
最適ポリシは2つの閾値構造を持ち,キャリブレーションとシャープネスが弱い検証器の値を支配することを示す。
本研究では,クエリストリーム,言語モデル,弱検証器を仮定することなく,受入誤りや拒否誤りを確実に制御するオンラインアルゴリズムを開発した。
論文 参考訳(メタデータ) (2026-02-19T18:47:38Z) - From Fluent to Verifiable: Claim-Level Auditability for Deep Research Agents [8.49451413641847]
研究生成が安価になるにつれて、監査可能性がボトルネックになる、と我々は主張する。
この観点からは,ディープリサーチエージェントの第一級設計および評価対象として,クレームレベルの監査性を提案する。
論文 参考訳(メタデータ) (2026-02-14T19:39:15Z) - interwhen: A Generalizable Framework for Verifiable Reasoning with Test-time Monitors [47.363850513075356]
実験時間検証フレームワークであるInterwhenを提案し, 与えられた検証結果に対して, 推論モデルの出力が有効であることを保証する。
検証された推論は、物理的な世界にエージェントを配置するといった高度なシナリオにおいて重要な目標である。
論文 参考訳(メタデータ) (2026-02-05T08:35:01Z) - Adaptive Test-Time Compute Allocation via Learned Heuristics over Categorical Structure [1.8055130471307603]
テスト時間計算は、大規模言語モデル(LLM)推論の進歩の原動力となっている。
我々は,検証作業が中間状態にまたがってどのように配置されるべきか,検証コストに制限のある環境下での推論について検討する。
本研究では, (i) 構造化された移動インタフェース上での確定可能性ゲーティング, (ii) 学習された状態距離と残差スコアのハイブリッドを用いた事前検証ランキング, (iii) 局所的不確実性に基づく検証呼び出しの適応的アロケーションを組み合わせた状態レベルの選択的検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-03T19:57:53Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Verifiability-First Agents: Provable Observability and Lightweight Audit Agents for Controlling Autonomous LLM Systems [0.0]
本稿では,暗号およびシンボリック手法を用いてエージェントアクションの実行時の検証を統合する,検証可能性第一アーキテクチャを提案する。
また、制約付き推論を用いて意図と行動の連続的な検証を行う監査エージェントを組み込む。
当社のアプローチでは,評価の焦点を,誤適応の可能性から,誤適応の迅速かつ確実な検出と再伝達にシフトしています。
論文 参考訳(メタデータ) (2025-12-19T06:12:43Z) - Co-Sight: Enhancing LLM-Based Agents via Conflict-Aware Meta-Verification and Trustworthy Reasoning with Structured Facts [18.221173068008603]
Co-Sightは推論を偽造可能で監査可能なプロセスに変える。
コンフリクト・アウェア・メタ検証(CAMV)とTrustworthy Reasoning with Structured Facts(TRSF)の2つのメカニズム
論文 参考訳(メタデータ) (2025-10-24T15:14:14Z) - Veri-R1: Toward Precise and Faithful Claim Verification via Online Reinforcement Learning [53.05161493434908]
大規模言語モデル(LLM)によるクレーム検証は、その強力な推論能力と透過的な検証プロセスのため、近年注目を集めている。
我々は、LLMが検索エンジンと対話し、その計画、検索、推論行動を明確に形作る報酬信号を受け取ることができるオンライン強化学習フレームワークであるVeri-R1を紹介した。
実験の結果、Veri-R1は最大30%の精度で関節の精度を向上し、エビデンススコアを2倍にし、より大きなモデルを上回ることが示されている。
論文 参考訳(メタデータ) (2025-10-02T11:49:48Z) - VeriLLM: A Lightweight Framework for Publicly Verifiable Decentralized Inference [3.8760740008451156]
本稿では,分散言語モデル (LLM) 推論のための公開検証プロトコルであるVeriLLMを紹介する。
VeriLLMは、軽量な経験的再実行と暗号的なコミットメントを組み合わせることで、検証者は基礎となる推論コストの約1%で結果を検証することができる。
We show that VeriLLM achieve reliable public verifiability with least overhead。
論文 参考訳(メタデータ) (2025-09-29T04:07:32Z) - Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。
その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。
VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - VerifiAgent: a Unified Verification Agent in Language Model Reasoning [10.227089771963943]
本稿では,メタ検証とツールベース適応検証の2つのレベルを統合した統合検証エージェントを提案する。
VerifiAgentは推論型に基づいて適切な検証ツールを自律的に選択する。
推論スケーリングに効果的に適用でき、より少ないサンプルとコストでより良い結果が得られる。
論文 参考訳(メタデータ) (2025-04-01T04:05:03Z) - FIRE: Fact-checking with Iterative Retrieval and Verification [63.67320352038525]
FIREはエビデンス検索とクレーム検証を反復的に統合する新しいフレームワークである。
大きな言語モデル(LLM)のコストを平均7.6倍、検索コストを16.5倍削減しながら、パフォーマンスが若干向上している。
これらの結果から,FIREは大規模ファクトチェック業務における適用を約束していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-17T06:44:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。