Fugu-MT 論文翻訳(概要): Preventing the Collapse of Peer Review Requires Verification-First AI

論文の概要: Preventing the Collapse of Peer Review Requires Verification-First AI

arxiv url: http://arxiv.org/abs/2601.16909v1
Date: Fri, 23 Jan 2026 17:17:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-26 14:27:27.779254
Title: Preventing the Collapse of Peer Review Requires Verification-First AI
Title（参考訳）: ピアレビューの崩壊を防ぐには検証ファーストAIが必要だ
Authors: Lei You, Lele Cao, Iryna Gurevych,
Abstract要約: 我々は、真理結合、すなわち、過度に科学的真理をトラックする場所のスコアの厳密さを提案する。プロキシ・ソブリン評価に向けた相転移を駆動する2つの力の形式化を行う。
参考スコア（独自算出の注目度）: 49.995126139461085
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper argues that AI-assisted peer review should be verification-first rather than review-mimicking. We propose truth-coupling, i.e. how tightly venue scores track latent scientific truth, as the right objective for review tools. We formalize two forces that drive a phase transition toward proxy-sovereign evaluation: verification pressure, when claims outpace verification capacity, and signal shrinkage, when real improvements become hard to separate from noise. In a minimal model that mixes occasional high-fidelity checks with frequent proxy judgment, we derive an explicit coupling law and an incentive-collapse condition under which rational effort shifts from truth-seeking to proxy optimization, even when current decisions still appear reliable. These results motivate actions for tool builders and program chairs: deploy AI as an adversarial auditor that generates auditable verification artifacts and expands effective verification bandwidth, rather than as a score predictor that amplifies claim inflation.
Abstract（参考訳）: 本稿では、AIによるピアレビューは、レビューミスではなく、検証ファーストであるべきだと論じる。レビューツールの適切な目的として,真理の結合,すなわち,過度に科学的真理をトラックする場所スコアの厳密さを提案する。我々は、検証圧力が検証能力を上回った場合の検証圧力と、実際の改善がノイズから切り離すのが困難になった場合の信号収縮という、プロキシ・ソブリン評価への位相遷移を駆動する2つの力を定式化する。時折高忠実度チェックと頻繁なプロキシ判断を混合する最小限のモデルでは、現在の決定が信頼されているとしても、明確な結合法則と、合理的な努力が真理探索からプロキシ最適化にシフトするインセンティブ-崩壊条件を導出する。これらの結果は、ツールビルダーやプログラムチェアに対するアクションを動機付けている。AIを監査可能な検証アーティファクトを生成し、効果的な検証帯域を拡大する対向監査としてデプロイする。

関連論文リスト

Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文参考訳（メタデータ） (2026-01-21T06:07:43Z)
Verifiability-First Agents: Provable Observability and Lightweight Audit Agents for Controlling Autonomous LLM Systems [0.0]
本稿では,暗号およびシンボリック手法を用いてエージェントアクションの実行時の検証を統合する,検証可能性第一アーキテクチャを提案する。また、制約付き推論を用いて意図と行動の連続的な検証を行う監査エージェントを組み込む。当社のアプローチでは,評価の焦点を,誤適応の可能性から,誤適応の迅速かつ確実な検出と再伝達にシフトしています。
論文参考訳（メタデータ） (2025-12-19T06:12:43Z)
Co-Sight: Enhancing LLM-Based Agents via Conflict-Aware Meta-Verification and Trustworthy Reasoning with Structured Facts [18.221173068008603]
Co-Sightは推論を偽造可能で監査可能なプロセスに変える。コンフリクト・アウェア・メタ検証(CAMV)とTrustworthy Reasoning with Structured Facts(TRSF)の2つのメカニズム
論文参考訳（メタデータ） (2025-10-24T15:14:14Z)
VeriLLM: A Lightweight Framework for Publicly Verifiable Decentralized Inference [3.8760740008451156]
本稿では,分散言語モデル (LLM) 推論のための公開検証プロトコルであるVeriLLMを紹介する。 VeriLLMは、軽量な経験的再実行と暗号的なコミットメントを組み合わせることで、検証者は基礎となる推論コストの約1%で結果を検証することができる。 We show that VeriLLM achieve reliable public verifiability with least overhead。
論文参考訳（メタデータ） (2025-09-29T04:07:32Z)
Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。 VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文参考訳（メタデータ） (2025-05-17T04:16:36Z)
VerifiAgent: a Unified Verification Agent in Language Model Reasoning [10.227089771963943]
本稿では,メタ検証とツールベース適応検証の2つのレベルを統合した統合検証エージェントを提案する。 VerifiAgentは推論型に基づいて適切な検証ツールを自律的に選択する。推論スケーリングに効果的に適用でき、より少ないサンプルとコストでより良い結果が得られる。
論文参考訳（メタデータ） (2025-04-01T04:05:03Z)
FIRE: Fact-checking with Iterative Retrieval and Verification [63.67320352038525]
FIREはエビデンス検索とクレーム検証を反復的に統合する新しいフレームワークである。大きな言語モデル(LLM)のコストを平均7.6倍、検索コストを16.5倍削減しながら、パフォーマンスが若干向上している。これらの結果から,FIREは大規模ファクトチェック業務における適用を約束していることが明らかとなった。
論文参考訳（メタデータ） (2024-10-17T06:44:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。