論文の概要: TADDLE: A Tool-Augmented Agent for Detecting Deficient LLM-Generated Peer Reviews
- arxiv url: http://arxiv.org/abs/2605.26911v1
- Date: Tue, 26 May 2026 12:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.995635
- Title: TADDLE: A Tool-Augmented Agent for Detecting Deficient LLM-Generated Peer Reviews
- Title(参考訳): TADDLE: 欠陥LLM生成ピアレビューを検出するツール拡張エージェント
- Authors: Hanqi Duan, Xiang Li,
- Abstract要約: LLM生成ピアレビューにおける欠陥検出ツールであるTADDLEを紹介する。
ベンチマークは、50のICLR 2025論文に対する1,800のレビューで構成されており、18のドメインエキスパートがマルチラベルをアノテートしている。
大規模な実験により,TADDLEは2値検出と多ラベル分類の両方に強く依存することが示された。
- 参考スコア(独自算出の注目度): 4.404176366651557
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: LLM-generated peer reviews are increasingly common at major venues, yet their deficiencies are hard to detect because they are uniformly fluent and well-structured. Existing work either classifies authorship without judging quality, or scores quality with features designed for human-written reviews; no prior system detects deficiencies in LLM-generated reviews at the level of individual defect types. To bridge the gap, we introduce TADDLE, a Tool-Augmented Agent for Detecting Deficient LLM-Generated Peer Reviews, together with the first expert-annotated benchmark for this task. Our benchmark comprises 1,800 reviews on 50 ICLR 2025 papers, multi-label-annotated by 18 domain experts against a taxonomy of six defect categories (plus a non-deficient label). TADDLE decomposes detection into four specialized analysis tools -- Verify, Correct, Complete, and Transform -- orchestrated by an agent; an integrator synthesizes their outputs into binary and multi-label classifications via two-stage semi-supervised learning. Extensive experiments show that TADDLE performs strongly on both binary detection and the multi-label classification task. We release the benchmark and code at https://github.com/AquariusAQ/TADDLE.
- Abstract(参考訳): LLM生成のピアレビューは、主要な会場ではますます一般的になっているが、それらの欠陥は、一様で、十分に構造化されているため、検出が困難である。
既存の作業は、品質を判断せずに著者を分類するか、人間によるレビュー用に設計された機能で品質をスコアする。
このギャップを埋めるために, TADDLE というツール拡張エージェント, 欠陥 LLM-Generated Peer Reviews と, このタスクのエキスパートアノテートベンチマークを紹介する。
このベンチマークは、50のICLR 2025論文に対する1,800のレビューで構成されており、18のドメイン専門家が6つの欠陥カテゴリの分類(および非欠陥ラベル)に対してマルチラベルを注釈付けしている。
TADDLEは、検出をエージェントによってオーケストレーションされた4つの特殊な分析ツール – Verify、Correct、Complete、Transform – に分解する。
大規模な実験により,TADDLEは2値検出と多ラベル分類の両方に強く依存することが示された。
ベンチマークとコードはhttps://github.com/AquariusAQ/TADDLEで公開しています。
関連論文リスト
- LLMs as annotators of credibility assessment in Danish asylum decisions: evaluating classification performance and errors beyond aggregated metrics [21.604030114864642]
オフザシェルフの大規模言語モデル(LLM)は、テキストアノテーションの自動化にますます利用されている。
デンマークのテキスト分類データセットであるRAB-Credを紹介した。
本研究は,21個のオープンウェイトモデルと30個のシステム・ユーザ・プロンプトの組み合わせをベンチマークし,ゼロショットと少数ショットの分類におけるモデルとプロンプトの選択の効果を体系的に評価する。
論文 参考訳(メタデータ) (2026-05-13T12:07:47Z) - CryptoAnalystBench: Failures in Multi-Tool Long-Form LLM Analysis [7.007981312278749]
我々はCryptoAnalystBenchを紹介した。CryptoAnalystBenchは198のプロダクション暗号と11のカテゴリにまたがるDeFiクエリのベンチマークである。
本研究では,事実性チェックやLCMに基づく品質評価によって確実に把握できない7種類の高次誤差型の分類法を開発する。
これらの失敗は、最先端のシステムでも継続し、高い利害判断を損なう可能性があることに気付きました。
論文 参考訳(メタデータ) (2026-02-11T19:29:31Z) - Reviewing the Reviewer: Elevating Peer Review Quality through LLM-Guided Feedback [75.31379834079648]
レビューを論証セグメントに分解するLLM駆動型フレームワークを提案する。
遅延思考と特異性をラベル付けした1,309文のデータセットであるLazyReviewPlusもリリースしました。
論文 参考訳(メタデータ) (2026-01-17T20:32:18Z) - PaperAudit-Bench: Benchmarking Error Detection in Research Papers for Critical Automated Peer Review [54.141490756509306]
本稿では、エラーデータセットであるPaperAudit-Datasetと、自動レビューフレームワークであるPaperAudit-Reviewの2つのコンポーネントからなるPaperAudit-Benchを紹介する。
PaperAudit-Benchの実験では、モデルと検出深さの誤差検出可能性に大きなばらつきが示された。
本研究では,SFTおよびRLによる軽量LLM検出器のトレーニングをサポートし,計算コストの削減による効率的な誤り検出を実現する。
論文 参考訳(メタデータ) (2026-01-07T04:26:12Z) - Explainable and Fine-Grained Safeguarding of LLM Multi-Agent Systems via Bi-Level Graph Anomaly Detection [76.91230292971115]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は複雑なタスクを解く上で強力な能力を示している。
XG-Guardは、MAS内の悪意のあるエージェントを検出するための、説明可能な、きめ細かい保護フレームワークである。
論文 参考訳(メタデータ) (2025-12-21T13:46:36Z) - FLAWS: A Benchmark for Error Identification and Localization in Scientific Papers [10.04850395402571]
エラーの特定とローカライゼーションは、ピアレビューにおける中核的なタスクである。
大規模言語モデル(LLM)の最近の進歩は、そのような評価タスクをサポートする可能性への関心を喚起している。
レビューシステムにおけるLSMの利用が増加しているにもかかわらず、エラーを特定できる能力はいまだに未調査のままである。
論文 参考訳(メタデータ) (2025-11-26T19:19:44Z) - EVADE: LLM-Based Explanation Generation and Validation for Error Detection in NLI [36.91800117379075]
EVADEは、大規模な言語モデルを使用してエラーを検出するための説明を生成し、検証するためのフレームワークである。
HLVは、複数のラベルが同じインスタンスに対して有効である場合に発生する。
論文 参考訳(メタデータ) (2025-11-12T03:49:05Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。
我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。
MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - Ambiguity-Resistant Semi-Supervised Learning for Dense Object Detection [98.66771688028426]
本研究では,一段階検出器のためのAmbiguity-Resistant Semi-supervised Learning (ARSL)を提案する。
擬似ラベルの分類とローカライズ品質を定量化するために,JCE(Joint-Confidence Estimation)を提案する。
ARSLは、曖昧さを効果的に軽減し、MS COCOおよびPASCALVOC上で最先端のSSOD性能を達成する。
論文 参考訳(メタデータ) (2023-03-27T07:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。