論文の概要: Who's Your Judge? On the Detectability of LLM-Generated Judgments
- arxiv url: http://arxiv.org/abs/2509.25154v1
- Date: Mon, 29 Sep 2025 17:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.140098
- Title: Who's Your Judge? On the Detectability of LLM-Generated Judgments
- Title(参考訳): 裁判長は誰だ? LLM判決の発見可能性について
- Authors: Dawei Li, Zhen Tan, Chengshuai Zhao, Bohan Jiang, Baixiang Huang, Pingchuan Ma, Abdullah Alnaibari, Kai Shu, Huan Liu,
- Abstract要約: 大言語モデル(LLM)に基づく判断は、強力なLLMを活用して、候補内容の効率よく評価し、判定スコアを提供する。
本研究は,判断検出の課題を提示し,定式化するものである。
我々は、明示的に抽出された言語的特徴とLLM強化特徴を付加した、軽量で透明なニューラル検出器であるtextitJ-Detectorを紹介した。
- 参考スコア(独自算出の注目度): 37.318998323301365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM)-based judgments leverage powerful LLMs to efficiently evaluate candidate content and provide judgment scores. However, the inherent biases and vulnerabilities of LLM-generated judgments raise concerns, underscoring the urgent need for distinguishing them in sensitive scenarios like academic peer reviewing. In this work, we propose and formalize the task of judgment detection and systematically investigate the detectability of LLM-generated judgments. Unlike LLM-generated text detection, judgment detection relies solely on judgment scores and candidates, reflecting real-world scenarios where textual feedback is often unavailable in the detection process. Our preliminary analysis shows that existing LLM-generated text detection methods perform poorly given their incapability to capture the interaction between judgment scores and candidate content -- an aspect crucial for effective judgment detection. Inspired by this, we introduce \textit{J-Detector}, a lightweight and transparent neural detector augmented with explicitly extracted linguistic and LLM-enhanced features to link LLM judges' biases with candidates' properties for accurate detection. Experiments across diverse datasets demonstrate the effectiveness of \textit{J-Detector} and show how its interpretability enables quantifying biases in LLM judges. Finally, we analyze key factors affecting the detectability of LLM-generated judgments and validate the practical utility of judgment detection in real-world scenarios.
- Abstract(参考訳): 大言語モデル(LLM)に基づく判断は、強力なLLMを活用して、候補内容の効率よく評価し、判定スコアを提供する。
しかし、LCMが生成する判断の固有のバイアスと脆弱性は懸念を生じさせ、学術的ピアレビューのようなセンシティブなシナリオでそれらを区別する緊急の必要性を浮き彫りにした。
本研究では, LLM による判定の可否を系統的に検討し, 判定タスクの提案と定式化を行う。
LLM生成のテキスト検出とは異なり、判定検出は判定スコアと候補のみに依存し、テキストフィードバックが検出プロセスでしばしば利用できない現実のシナリオを反映する。
予備分析の結果,既存のLCM生成テキスト検出手法は,評価スコアと候補コンテンツとの相互作用を捉えることができないため,性能が劣ることがわかった。
そこで本研究では,LLM判定器のバイアスとLLM判定器の特性を関連付けるために,明示的に抽出された言語的特徴とLLM強調特徴を付加した,軽量で透明なニューラル検出器である「textit{J-Detector}」を紹介した。
多様なデータセットにわたる実験は、textit{J-Detector}の有効性を示し、その解釈可能性によってLLM審査員のバイアスを定量化できることを示す。
最後に,LLM生成判定の検知可能性に影響を及ぼす重要な要因を分析し,実世界のシナリオにおける判定の実用性を検証する。
関連論文リスト
- Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Don't Judge Code by Its Cover: Exploring Biases in LLM Judges for Code Evaluation [14.521056434373213]
評価子として大きな言語モデルを使用すると、コード評価タスクに拡張される。
LLMは、表面的なバリエーションで意味論的に等価なコードを公平かつ堅牢に評価できますか?
コード評価における潜在的なバイアスを6種類定義し,この問題を包括的に検討した。
論文 参考訳(メタデータ) (2025-05-22T04:49:33Z) - Fooling the LVLM Judges: Visual Biases in LVLM-Based Evaluation [14.521056434373213]
大規模視覚言語モデル (LVLM) はテキスト画像のアライメントを判断するツールとして好まれている。
対人的視覚操作は、LVLM審査員が不当に膨らんだスコアを割り当てることを体系的に騙すことができるか?
敵対的な視覚操作は、LVLM審査員を体系的に騙して不当に膨らませたスコアを割り当てることができるか?
論文 参考訳(メタデータ) (2025-05-21T08:24:28Z) - ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability [62.285407189502216]
LLM(Large Language Models)によって生成されたテキストの検出は、誤った判断によって致命的な誤りを引き起こす可能性がある。
本稿では,人間の意思決定プロセスに根ざした解釈可能な検出手法であるExaGPTを紹介する。
以上の結果から,ExaGPTは従来の強力な検出器よりも最大で40.9ポイントの精度を1%の偽陽性率で大きく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T01:15:07Z) - Is LLM an Overconfident Judge? Unveiling the Capabilities of LLMs in Detecting Offensive Language with Annotation Disagreement [22.992484902761994]
本研究では,攻撃言語検出における多言語モデル(LLM)の性能を系統的に評価する。
本研究では,二項分類の精度を分析し,モデル信頼度と人的不一致度の関係を検証し,不一致サンプルがモデル決定にどう影響するかを考察する。
論文 参考訳(メタデータ) (2025-02-10T07:14:26Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - Evaluating the Correctness of Inference Patterns Used by LLMs for Judgment [53.17596274334017]
我々は,LLMの詳細な推論パターンの正確さを,その正しい出力の裏側で評価した。
実験により、言語生成結果が正しそうであっても、LLMが法的な判断に用いた推論パターンのかなりの部分は、誤解を招く論理や無関係な論理を表す可能性があることが示された。
論文 参考訳(メタデータ) (2024-10-06T08:33:39Z) - From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks [11.01213914485374]
数学的推論タスクにおいて,大規模言語モデル (LLM) について検討する。
本分析により,判定性能と候補モデルタスク性能との間に強い相関関係が明らかになった。
その結果、音声の一部タグのような単純な特徴を用いて、LLM判断者の行動を予測することができるかどうかを検証した。
論文 参考訳(メタデータ) (2024-09-06T10:09:41Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。
我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文 参考訳(メタデータ) (2024-06-19T10:59:48Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。