Fugu-MT 論文翻訳(概要): Multi-Perspective LLM Annotations for Valid Analyses in Subjective Tasks

論文の概要: Multi-Perspective LLM Annotations for Valid Analyses in Subjective Tasks

arxiv url: http://arxiv.org/abs/2603.21404v1
Date: Sun, 22 Mar 2026 21:18:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-24 19:11:39.402558
Title: Multi-Perspective LLM Annotations for Valid Analyses in Subjective Tasks
Title（参考訳）: 主観的課題における妥当性分析のための多目的LLMアノテーション
Authors: Navya Mehrotra, Adam Visokay, Kristina Gligorić,
Abstract要約: パースペクティブ駆動推論は、グループ間のアノテーションの分布を関心の量として扱い、小さな人間のアノテーション予算を使ってそれを見積もる。我々は、丁寧さと攻撃性評価のタスクを評価し、より厳密なモデル集団に対する目標的改善を示す。
参考スコア（独自算出の注目度）: 1.3490988186255934
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models are increasingly used to annotate texts, but their outputs reflect some human perspectives better than others. Existing methods for correcting LLM annotation error assume a single ground truth. However, this assumption fails in subjective tasks where disagreement across demographic groups is meaningful. Here we introduce Perspective-Driven Inference, a method that treats the distribution of annotations across groups as the quantity of interest, and estimates it using a small human annotation budget. We contribute an adaptive sampling strategy that concentrates human annotation effort on groups where LLM proxies are least accurate. We evaluate on politeness and offensiveness rating tasks, showing targeted improvements for harder-to-model demographic groups relative to uniform sampling baselines, while maintaining coverage.
Abstract（参考訳）: 大規模な言語モデルは、アノテートテキストにますます使われているが、その出力は他のものよりも優れた人間の視点を反映している。 LLMアノテーションの誤りを訂正する既存の方法は、単一の根拠真理を仮定する。しかし、この仮定は、人口集団間での意見の不一致が意味のある主観的なタスクでは失敗する。本稿では、グループ間のアノテーションの分布を関心の量として扱う手法であるパースペクティブ駆動推論を紹介し、それを小さな人的アノテーション予算を用いて推定する。 LLMプロキシが最小限であるグループに、人間のアノテーションの取り組みを集中させる適応的サンプリング戦略に貢献する。本研究は丁寧さと攻撃性評価の課題について評価し,一様サンプリングベースラインに対する厳格な集団群の改善を目標とし,カバー範囲の維持を図った。

関連論文リスト

Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文参考訳（メタデータ） (2026-02-07T19:39:28Z)
Enhancing LLM-Based Data Annotation with Error Decomposition [6.6544828402388445]
大規模言語モデルは、データアノテーションタスクのための人間のコーディングに代わるスケーラブルな代替手段を提供する。主観的アノテーションタスクのパフォーマンスは、一貫性が低く、エラーを起こしやすい。モデル駆動不正確性からタスク独立性の曖昧さを分離するために,ヒューマン・イン・ザ・ループのステップを取り入れた診断評価パラダイムを提案する。
論文参考訳（メタデータ） (2026-01-17T05:43:17Z)
Can We Hide Machines in the Crowd? Quantifying Equivalence in LLM-in-the-loop Annotation Tasks [8.246529401043128]
我々は、人間とLLMの両方によるラベル付け決定が、個人間で統計的に評価される方法について検討することを目指している。 Krippendorffの$alpha$, paired bootstrapping, and the Two One-Sided t-Tests (TOST) equivalence test procedureに基づく統計的評価法を開発した。このアプローチをMovieLens 100K と PolitiFact という2つのデータセットに適用すると、LCM が前者の人間のアノテーションと統計的に区別できないことが分かる。
論文参考訳（メタデータ） (2025-10-08T05:17:33Z)
Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文参考訳（メタデータ） (2025-06-24T09:49:26Z)
Utility-Focused LLM Annotation for Retrieval and Retrieval-Augmented Generation [96.18720164390699]
本稿では,大規模言語モデル (LLM) を用いた検索・検索・拡張生成システム (RAG) の訓練における文書ユーティリティのアノテートについて検討する。以上の結果から,LLM生成アノテーションは,人間のアノテーションや下流QAメトリクスのみを訓練したモデルと比較して,ドメイン外検索性能の向上とRAG結果の改善を図っている。
論文参考訳（メタデータ） (2025-04-07T16:05:52Z)
Evaluating how LLM annotations represent diverse views on contentious topics [3.405231040967506]
生成型大規模言語モデル (LLM) は, 同一データセット内の同じ階層カテゴリーにおいて, 同一方向のバイアスを受ける傾向があることを示す。自動データアノテーションタスクにLLMを用いた研究者や実践者にとっての意義について論じる。
論文参考訳（メタデータ） (2025-03-29T22:53:15Z)
Personas with Attitudes: Controlling LLMs for Diverse Data Annotation [4.916264341371062]
大規模言語モデル(LLM)のパーソナライズによるデータアノテーションタスクにおける多様性と制御の向上のための新しいアプローチを提案する。我々は、ペルソナがアノテーションの多様性を高め、個々のペルソナがアノテーションに与える影響が一貫性があり、制御可能であるかどうかを検討する。
論文参考訳（メタデータ） (2024-10-15T16:22:49Z)
Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文参考訳（メタデータ） (2024-10-03T16:43:17Z)
CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文参考訳（メタデータ） (2023-10-24T08:56:49Z)
Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文参考訳（メタデータ） (2023-05-24T06:19:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。