論文の概要: More Rounds, More Noise: Why Multi-Turn Review Fails to Improve Cross-Context Verification
- arxiv url: http://arxiv.org/abs/2603.16244v1
- Date: Tue, 17 Mar 2026 08:29:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.171145
- Title: More Rounds, More Noise: Why Multi-Turn Review Fails to Improve Cross-Context Verification
- Title(参考訳): より多くのラウンドとノイズ: クロスコンテキスト検証を改善するためにマルチTurnレビューが失敗した理由
- Authors: Song Tae-Eun,
- Abstract要約: マルチターンレビューでは、リビューアがフォローアップ質問をしたり、著者からの回答を受け取り、再レビューを行うことができる。
制御実験では,シングルパスCCRベースラインに対して4種類のD-CCR変異体を試験した。
問題はレビュアーが見ているものではありませんが、そのレビューは再びノイズを招きます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-Context Review (CCR) improves LLM verification by separating production and review into independent sessions. A natural extension is multi-turn review: letting the reviewer ask follow-up questions, receive author responses, and review again. We call this Dynamic Cross-Context Review (D-CCR). In a controlled experiment with 30 artifacts and 150 injected errors, we tested four D-CCR variants against the single-pass CCR baseline. Single-pass CCR (F1 = 0.376) significantly outperformed all multi-turn variants, including D-CCR-2b with question-and-answer exchange (F1 = 0.303, $p < 0.001$, $d = -0.59$). Multi-turn review increased recall (+0.08) but generated 62% more false positives (8.5 vs. 5.2), collapsing precision from 0.30 to 0.20. Two mechanisms drive this degradation: (1) false positive pressure -- reviewers in later rounds fabricate findings when the artifact's real errors have been exhausted, and (2) Review Target Drift -- reviewers provided with prior Q&A exchanges shift from reviewing the artifact to critiquing the conversation itself. Independent re-review without prior context (D-CCR-2c) performed worst (F1 = 0.263), confirming that mere repetition degrades rather than helps. The degradation stems from false positive pressure in additional rounds, not from information amount -- within multi-turn conditions, more information actually helps (D-CCR-2b > D-CCR-2a). The problem is not what the reviewer sees, but that reviewing again invites noise.
- Abstract(参考訳): Cross-Context Review (CCR)は、プロダクションとレビューを独立したセッションに分離することで、LCM検証を改善する。
自然な拡張は、マルチターンレビューである: レビュー担当者がフォローアップ質問をしたり、著者からの回答を受け取り、再レビューする。
このDynamic Cross-Context Review (D-CCR) と呼ぶ。
30のアーティファクトと150のインジェクトエラーによる制御実験を行い、単パスCCRベースラインに対して4つのD-CCR変種を試験した。
シングルパスCCR (F1 = 0.376) は、質問と回答の交換を持つD-CCR-2b(F1 = 0.303, $p < 0.001$, $d = -0.59$)を含む全てのマルチターン変種を著しく上回った。
マルチターンレビューではリコール(+0.08)が増加したが、62%以上の偽陽性(8.5対5.2)が発生し、精度は0.30から0.20に低下した。
1) 偽陽性の圧力 -- 後続のラウンドのレビュアーは、アーティファクトの実際のエラーが尽きたときに発見を作成し、(2) レビューターゲットドリフト -- アーティファクトのレビューから会話自体の批判へと、事前のQ&A交換が提供される。
事前コンテキストのない独立した再レビュー(D-CCR-2c)は最悪の結果(F1 = 0.263)となり、単なる繰り返しは助けではなく劣化することを確認した。
この劣化は、多ターン条件下での情報量ではなく、追加のラウンドでの偽陽性圧力に起因する(D-CCR-2b > D-CCR-2a)。
問題はレビュアーが見ているものではありませんが、そのレビューは再びノイズを招きます。
関連論文リスト
- Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - Cross-Context Review: Improving LLM Output Quality by Separating Production and Review Sessions [0.0]
本稿では,CCR(Cross-Context Review)について紹介する。
30のアーティファクト(コード、テクニカルドキュメント、プレゼンテーションスクリプト)に150のエラーがあり、同じセッションの自己レビュー(SR)、繰り返しの自己レビュー(SR2)、コンテキスト対応のサブエージェントレビュー(SA)、CCRの4つのレビュー条件の下でテストされました。
CCRはどんなモデルでも動作し、インフラストラクチャを必要としない。
論文 参考訳(メタデータ) (2026-03-12T16:26:38Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Uncertainty Quantification for Retrieval-Augmented Reasoning [40.43455995861054]
Retrieval-augmented reasoning (RAR)は、検索と生成に複数の推論ステップを用いる検索強化世代(RAG)の最近の進化である。
不確実性定量化(Uncertainty Quantification、UQ)は、システムの出力の信頼性を推定する方法を提供する。
本稿では,RARの新しいUQ手法であるRetrieval-Augmented Reasoning(R2C)を紹介する。
論文 参考訳(メタデータ) (2025-10-13T14:55:28Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - Recursive Chain-of-Feedback Prevents Performance Degradation from
Redundant Prompting [0.4662017507844857]
本稿では,このような反復行動とその効果について,新しい設定,CoF(Chain-of-Feedback)を定義することによって検討する。
これらの問題を緩和するために、新しい手法、Recursive Chain-of-Feedback (R-CoF)を提案する。
論文 参考訳(メタデータ) (2024-02-05T00:44:28Z) - Controlling Overestimation Bias with Truncated Mixture of Continuous
Distributional Quantile Critics [65.51757376525798]
過大評価バイアスは、政治以外の学習を正確にするための主要な障害の1つである。
本稿では,連続制御環境における過大評価バイアスを軽減する新しい手法について検討する。
我々の方法--Truncated Quantile Critics, TQC----は、批評家の分布表現、批評家予測の切り離し、複数の批評家のアンサンブルの3つの考えを反映している。
論文 参考訳(メタデータ) (2020-05-08T19:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。