論文の概要: From Fallback to Frontline: When Can LLMs be Superior Annotators of Human Perspectives?
- arxiv url: http://arxiv.org/abs/2604.17968v1
- Date: Mon, 20 Apr 2026 08:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.775742
- Title: From Fallback to Frontline: When Can LLMs be Superior Annotators of Human Perspectives?
- Title(参考訳): フォールバックからフロントラインへ:LLMはいつ人間の視点のスーパーアノテータになれるのか?
- Authors: Hasan Amin, Harry Yizhou Tian, Xiaoni Duan, Chien-Ju Ho, Rajiv Khanna, Ming Yin,
- Abstract要約: 大規模言語モデル(LLM)は、大規模にアノテータとして使われることが多い。
この研究は、潜在群レベルの判断を推定する手段として、視点を取ることによる推定に挑戦する。
- 参考スコア(独自算出の注目度): 16.841321593524132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although large language models (LLMs) are increasingly used as annotators at scale, they are typically treated as a pragmatic fallback rather than a faithful estimator of human perspectives. This work challenges that presumption. By framing perspective-taking as the estimation of a latent group-level judgment, we characterize the conditions under which modern LLMs can outperform human annotators, including in-group humans, when predicting aggregate subgroup opinions on subjective tasks, and show that these conditions are common in practice. This advantage arises from structural properties of LLMs as estimators, including low variance and reduced coupling between representation and processing biases, rather than any claim of lived experience. Our analysis identifies clear regimes where LLMs act as statistically superior frontline estimators, as well as principled limits where human judgment remains essential. These findings reposition LLMs from a cost-saving compromise to a principled tool for estimating collective human perspectives.
- Abstract(参考訳): 大規模言語モデル (LLMs) はアノテータとして広く使われているが、一般的には人間の視点を忠実に見積もるのではなく、現実的なフォールバックとして扱われる。
この仕事はその推定に挑戦する。
潜在群レベルでの判断として視点を取ることで、主観的タスクにおける集団的サブグループ意見の予測において、現代LLMが人間を含むアノテータを上回りうる条件を特徴付けるとともに、これらの条件が実際は一般的であることを示す。
この利点は、生きた経験の主張よりも、低分散と表現と処理バイアスのカップリングの低減を含む、推定器としてのLLMの構造的性質から生じる。
我々の分析では、LSMが統計的に優れた最前線推定器として機能する明確な状況と、人間の判断が不可欠である原則的限界を識別する。
これらの知見は,LLMをコスト削減妥協から,集団的人間の視点を推定するための原則的ツールへと再構成した。
関連論文リスト
- Evaluating Alignment of Behavioral Dispositions in LLMs [15.282965130762648]
社会的文脈における反応を形作る行動配置に着目する。
LLMによって表現される配位が人間の配位とどのように密接に一致しているかを研究するための枠組みを導入する。
論文 参考訳(メタデータ) (2026-02-11T19:59:12Z) - Automated Concept Discovery for LLM-as-a-Judge Preference Analysis [21.171990974350773]
大規模言語モデル(LLM)は、モデル出力のスケーラブルな評価手段として、ますます使われています。
彼らの選好判断は体系的な偏見を示し、人間の評価から分岐することができる。
LLM判定の動作を解析するための埋め込みレベルの概念抽出法について検討した。
論文 参考訳(メタデータ) (2026-02-09T20:55:16Z) - On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.15541137648721]
大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。
本研究では,LLMの生成能力と評価能力の関係について検討した。
モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2025-11-25T18:33:24Z) - Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。
我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。
以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文 参考訳(メタデータ) (2025-05-28T01:31:54Z) - Can DPO Learn Diverse Human Values? A Theoretical Scaling Law [7.374590753074647]
嗜好学習は、人間のフィードバックに基づいて、好ましくない反応と好ましくない反応を区別するモデルを訓練する。
本稿では,値の多様性とサンプル量とともに一般化がいかにスケールするかを解析するための新しい理論的枠組みを提案する。
我々のフレームワークは、有限個の勾配ステップの後、モデルがどのように一般化するかを厳格に評価する。
論文 参考訳(メタデータ) (2024-08-06T22:11:00Z) - A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - Bayesian Statistical Modeling with Predictors from LLMs [5.5711773076846365]
State of the Art Large Language Model (LLM)は、様々なベンチマークタスクで印象的なパフォーマンスを示している。
このことは、LLMから派生した情報の人間的類似性に関する疑問を提起する。
論文 参考訳(メタデータ) (2024-06-13T11:33:30Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。