Fugu-MT 論文翻訳(概要): When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis

論文の概要: When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis

arxiv url: http://arxiv.org/abs/2605.29025v1
Date: Wed, 27 May 2026 19:21:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 02:45:55.34282
Title: When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis
Title（参考訳）: モデルが混乱する時 - パブリックコメント分析のためのLCM評価の再考
Authors: Aisha Najera, Alvin Moon, Vedant Srinivasan, Rajesh Veeraraghavan,
Abstract要約: 連邦機関は、公開コメントコーパスを分類する大規模な言語モデルを展開している。標準評価は、異なるモデルが同じ公開入力の実質的な異なる分類を生成することを検出できない。本稿では,多モデル不一致を解釈複雑性の診断として扱う解釈監査パイプラインを提案する。
参考スコア（独自算出の注目度）: 2.3249139042158853
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Federal agencies are deploying large language models (LLMs) to categorize public comment corpora, where the model's organization of the record shapes what policymakers see and which arguments register. Standard evaluation, anchored on stance accuracy against a small validated set, cannot detect when different models produce materially different categorizations of the same public input. We propose an Interpretive Audit Pipeline that treats multi-model disagreement as diagnostic of interpretive complexity and directs human review toward genuinely ambiguous public input. Analyzing 1,260 public comments on a federal USDA docket across four LLMs, we find that inter-model thematic divergence exceeds within-model prompt variation, and that an expert rubric suppresses deep interpretive disagreement without resolving it. In a two-stage labeling study on a stratified 40-comment subsample, four LLMs and a human annotator labeled independently and then revised after seeing the others' labels. Revision behavior varied across labelers, and the human annotator's revisions frequently introduced framings absent from the ensemble's collective output. We argue disagreement-based evaluation is a necessary complement to accuracy metrics for LLM-assisted interpretive coding.
Abstract（参考訳）: 連邦機関は、公開コメントコーパスを分類するために、大きな言語モデル(LLM)をデプロイしている。小さな検証済み集合に対するスタンス精度に固定された標準評価では、異なるモデルが同一の公開入力の実質的な異なる分類を生成することを検出できない。本稿では,多モデル不一致を解釈複雑性の診断として扱う解釈監査パイプラインを提案する。 4つのLDMにまたがる連邦政府のUSDAドケットに対する1,260の公開コメントを分析し、モデル間セマンティックなばらつきがモデル内のプロンプト変動を超越し、専門家のルーリックがそれを解決することなく深い解釈の不一致を抑制することを発見した。層状40段サブサンプルの2段階ラベリング実験では、4つのLDMと1つのアノテーターが独立にラベル付けされ、その後他のラベルを見た後に改訂された。リビジョンの振る舞いはラベル作成者によって異なり、人間のアノテータのリビジョンは、アンサンブルの集合的な出力から欠落したフレーミングを頻繁に導入した。我々は,LLMを用いた解釈符号化における精度指標の相補的手法として,不一致に基づく評価が重要であると論じている。

関連論文リスト

Query-Document Dense Vectors for LLM Relevance Judgment Bias Analysis [4.719505127252616]
大規模言語モデル (LLM) は、情報検索 (IR) 評価収集のための関連評価器として使われている。我々は、LLMが平均的にどれだけ良いかを単に理解するのではなく、関係を判断する際に体系的な誤りを犯すかどうかを理解することを目的としている。クエリドキュメント(Q-D)ペアを結合意味空間に埋め込むクラスタリングベースのフレームワークを導入する。
論文参考訳（メタデータ） (2026-01-05T03:02:33Z)
When LLMs Disagree: Diagnosing Relevance Filtering Bias and Retrieval Divergence in SDG Search [0.0]
大規模言語モデル(LLM)は、情報検索パイプラインに文書関連ラベルを割り当てるのにますます使われている。 LLMは境界線のケースにしばしば反対し、そのような不一致が下流の検索にどのように影響するかという懸念を提起する。モデル不一致は体系的であり、ランダムではないことを示す。本稿では,検索評価における分析対象として分類不一致を用いることを提案する。
論文参考訳（メタデータ） (2025-07-02T20:53:51Z)
Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文参考訳（メタデータ） (2025-06-24T09:49:26Z)
Is LLM an Overconfident Judge? Unveiling the Capabilities of LLMs in Detecting Offensive Language with Annotation Disagreement [22.992484902761994]
本研究では,攻撃言語検出における多言語モデル(LLM)の性能を系統的に評価する。本研究では,二項分類の精度を分析し,モデル信頼度と人的不一致度の関係を検証し,不一致サンプルがモデル決定にどう影響するかを考察する。
論文参考訳（メタデータ） (2025-02-10T07:14:26Z)
TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization [29.49641083851667]
様々な大きさのLPMによって生成される話題中心の対話要約に関する新しい評価ベンチマークを提案する。我々はこれらの要約の事実整合性に関する二項文レベルの人文アノテーションと、事実整合性のある文章の詳細な説明を提供する。
論文参考訳（メタデータ） (2024-02-20T18:58:49Z)
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。自己監督評価と人監督評価との間には強い相関関係が認められた。
論文参考訳（メタデータ） (2023-06-23T17:59:09Z)
Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文参考訳（メタデータ） (2023-05-24T06:19:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。