論文の概要: When Reviews Disagree: Fine-Grained Contradiction Analysis in Scientific Peer Reviews
- arxiv url: http://arxiv.org/abs/2605.10171v1
- Date: Mon, 11 May 2026 08:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.639559
- Title: When Reviews Disagree: Fine-Grained Contradiction Analysis in Scientific Peer Reviews
- Title(参考訳): 科学的ピアレビューにおけるファイングラインドコントラディション分析
- Authors: Sandeep Kumar, Yash Kamdar, Abid Hossain, Bharti Kumari, Tanik Saikh, Asif Ekbal,
- Abstract要約: RevCIは、評価された強度ラベルを持つエビデンスレベルの矛盾アノテーションを備えたピアレビューペアの専門家によるベンチマークである。
IMPACTは、アスペクト条件のエビデンス抽出、熟考的推論、偏見を統合した構造化マルチエージェントフレームワークである。
TIDEは1つの前方通過における矛盾する証拠と強度を予測する小さな言語モデルである。
- 参考スコア(独自算出の注目度): 25.43097618275061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific peer reviews frequently contain conflicting expert judgments, and the increasing scale of conference submissions makes it challenging for Area Chairs and editors to reliably identify and interpret such disagreements. Existing approaches typically frame reviewer disagreement as binary contradiction detection over isolated sentence pairs, abstracting away the review-level context and obscuring differences in the severity of evaluative conflict. In this work, we introduce a fine-grained formulation of reviewer contradiction analysis that operates over full peer reviews by explicitly identifying contradiction evidence spans and assigning graded disagreement intensity scores. To support this task, we present RevCI, an expert-annotated benchmark of peer-review pairs with evidence-level contradiction annotations with graded intensity labels. We further propose IMPACT, a structured multi-agent framework that integrates aspect-conditioned evidence extraction, deliberative reasoning, and adjudication to model reviewer contradictions and their intensity. To support efficient deployment, we distill IMPACT into TIDE, a small language model that predicts contradiction evidence and intensity in a single forward pass. Experimental results show that IMPACT substantially outperforms strong single-agent and generic multi-agent baselines in both evidence identification and intensity agreement, while TIDE achieves competitive performance at significantly lower inference cost.
- Abstract(参考訳): 科学的な査読には専門家の判断が矛盾することが多く、会議の規模が大きくなると、エリアチェアや編集者がこうした意見の相違を確実に特定し解釈することが困難になる。
既存のアプローチでは、孤立した文対に対する二項矛盾検出として、レビューレベルのコンテキストを抽象化し、評価的矛盾の深刻さの違いを隠蔽している。
本研究では,矛盾する証拠を明示的に識別し,段階的不一致強度スコアを割り当てることにより,完全ピアレビュー上で機能するレビュア矛盾解析の詳細な定式化を導入する。
この課題を支援するために,評価強度ラベル付きエビデンスレベルの矛盾アノテーションを用いたピアレビューペアのエキスパートによるベンチマークであるRevCIを提案する。
さらに、アスペクト条件付きエビデンス抽出、熟考的推論、モデルレビュアーの矛盾とその強度の判断を組み込んだ構造化マルチエージェントフレームワークIMPACTを提案する。
効率的なデプロイメントを支援するため、IMPACTを単一前方通過における矛盾する証拠と強度を予測する小さな言語モデルであるTIDEに蒸留する。
実験結果から,IMPACTはエビデンス識別と強度合意の両方において,強い単一エージェントと汎用マルチエージェントのベースラインを著しく上回り,TIDEは推論コストが大幅に低い競争性能を達成していることがわかった。
関連論文リスト
- To Fuse or to Drop? Dual-Path Learning for Resolving Modality Conflicts in Multimodal Emotion Recognition [87.22988227382329]
マルチモーダル感情認識(MER)は、テキスト、音声、視覚を組み合わせることで恩恵を受けるが、標準的な融合は、モダリティが相反する場合に失敗することが多い。
我々は,いつフューズするか,いつモダリティを落とすのかを学習する統合フレームワークであるDual-Path Conflict Resolution (DCR)を提案する。
論文 参考訳(メタデータ) (2026-05-06T13:11:33Z) - When AI reviews science: Can we trust the referee? [73.47745294608072]
私たちは、トレーニングとデータ検索、デスクレビュー、深いレビュー、反論、システムレベルといった、レビューライフサイクル全体のアタックをマップします。
評価スコアに高名度フレーミング, 断定力, 反抗薬効, 文脈中毒の因果効果を分離するために, 2つの高度なLCMベースの審判を用いた。
論文 参考訳(メタデータ) (2026-04-26T08:03:32Z) - Co-FactChecker: A Framework for Human-AI Collaborative Claim Verification Using Large Reasoning Models [99.26398772227684]
我々は,人間とAIの協調的クレーム検証のためのフレームワークであるCo-FactCheckerを提案する。
Co-FactCheckerは専門家のフィードバックをトレース編集に変換する。
人間の評価は、マルチターン対話よりもCo-FactCheckerの方が好ましいことを示している。
論文 参考訳(メタデータ) (2026-04-15T10:35:00Z) - When Contextual Inference Fails: Cancelability in Interactive Instruction Following [51.2195840589474]
私たちは、コンテキスト意味構築のためのインタラクティブなベンチマークであるBuild What I Meanを紹介します。
BWIMでは、モデルは文脈推論を行うか、小さな通信コストで明確化を要求することによって曖昧さを解決しなければならない。
我々は,不確実性の下でのパートナーブラインド過度明確化や質問逆推定などの準最適戦略を観察する。
論文 参考訳(メタデータ) (2026-03-20T14:46:59Z) - Beyond Consensus: Perspectivist Modeling and Evaluation of Annotator Disagreement in NLP [25.097081181685613]
アノテーションの不一致は、特に毒性の検出やスタンス分析のような主観的で曖昧なタスクに対して、NLPで広く見られる。
まず、データ、タスク、アノテータ要素にまたがる不一致の原因のドメインに依存しない分類を提示する。
次に,予測対象とプール構造によって定義された共通フレームワークを用いてモデリング手法を合成する。
論文 参考訳(メタデータ) (2026-01-14T01:26:29Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Exploring Health Misinformation Detection with Multi-Agent Debate [0.11470070927586014]
健康情報検出のための2段階の枠組みを提案する。
第1段階では,検索した記事を独立に評価するために,大規模言語モデル (LLM) を用いる。
このスコアが、事前定義された閾値以下のコンセンサスフォールが不十分であることを示すと、システムは第2段階に進む。
複数のエージェントが構造化された議論を行い、矛盾する証拠を合成し、明確な正当性を持つ十分な評決を生成する。
論文 参考訳(メタデータ) (2025-11-29T12:39:30Z) - LegalWiz: A Multi-Agent Generation Framework for Contradiction Detection in Legal Documents [0.10260880679794955]
本稿では,法的領域に対するマルチエージェントの矛盾対応ベンチマークフレームワークを提案する。
合成法スタイルの文書を生成し、6種類の構造的矛盾を注入し、自己と対の矛盾をモデル化する。
このベンチマークは、法的RAGパイプラインにおける矛盾認識評価のための最初の構造化されたリソースの1つを提供する。
論文 参考訳(メタデータ) (2025-10-03T18:24:27Z) - Debate, Deliberate, Decide (D3): A Cost-Aware Adversarial Framework for Reliable and Interpretable LLM Evaluation [0.0]
本稿では、役割特化エージェント間の構造的議論を組織化する、費用対効果のある多エージェントフレームワークであるDebate, Deliberate, Decide(D3)を紹介する。
我々は,反復的議論の下で信頼性と収束性を特徴付けるスコアギャップの確率論的モデルを開発する。
我々は,人間の判断に対する最先端の合意,匿名化による位置バイアスと冗長性バイアスの低減,そして,適切な費用対精度のフロンティアを示す。
論文 参考訳(メタデータ) (2024-10-07T00:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。