論文の概要: Can AI Truly Represent Your Voice in Deliberations? A Comprehensive Study of Large-Scale Opinion Aggregation with LLMs
- arxiv url: http://arxiv.org/abs/2510.05154v1
- Date: Thu, 02 Oct 2025 17:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.862633
- Title: Can AI Truly Represent Your Voice in Deliberations? A Comprehensive Study of Large-Scale Opinion Aggregation with LLMs
- Title(参考訳): AIはあなたの声を真に表現できるか? : LLMによる大規模意見集約の総合的研究
- Authors: Shenzhe Zhu, Shu Yang, Michiel A. Bakker, Alex Pentland, Jiaxin Pei,
- Abstract要約: DeliberationBankは大規模な人為的なデータセットで、3,000人の参加者が作成した10のDeliberationの質問に意見データがある。
私たちはDeliberationJudgeをトレーニングします。
我々のフレームワークは、議論の要約を評価するスケーラブルで信頼性の高い方法を提供する。
- 参考スコア(独自算出の注目度): 14.173399999698177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale public deliberations generate thousands of free-form contributions that must be synthesized into representative and neutral summaries for policy use. While LLMs have been shown as a promising tool to generate summaries for large-scale deliberations, they also risk underrepresenting minority perspectives and exhibiting bias with respect to the input order, raising fairness concerns in high-stakes contexts. Studying and fixing these issues requires a comprehensive evaluation at a large scale, yet current practice often relies on LLMs as judges, which show weak alignment with human judgments. To address this, we present DeliberationBank, a large-scale human-grounded dataset with (1) opinion data spanning ten deliberation questions created by 3,000 participants and (2) summary judgment data annotated by 4,500 participants across four dimensions (representativeness, informativeness, neutrality, policy approval). Using these datasets, we train DeliberationJudge, a fine-tuned DeBERTa model that can rate deliberation summaries from individual perspectives. DeliberationJudge is more efficient and more aligned with human judgements compared to a wide range of LLM judges. With DeliberationJudge, we evaluate 18 LLMs and reveal persistent weaknesses in deliberation summarization, especially underrepresentation of minority positions. Our framework provides a scalable and reliable way to evaluate deliberation summarization, helping ensure AI systems are more representative and equitable for policymaking.
- Abstract(参考訳): 大規模な公開審議は、政策利用のための代表的および中立的な要約に合成されなければならない何千もの自由形式の貢献を生成する。
LLMは大規模検討のための要約を生成するための有望なツールとして示されてきたが、少数派視点を過小評価し、入力順序に関して偏見を呈し、高い文脈における公平性の懸念を提起するリスクもある。
これらの問題を調査し、解決するには、大規模で包括的な評価が必要であるが、現在の慣行は、人間の判断と弱い一致を示す判断としてLLMに依存していることが多い。
そこで我々は,(1) 3000人の参加者が作成した10の評定質問にまたがる意見データと(2) 4次元(表現性,情報性,中立性,政策承認)にまたがる4500人の参加者によって注釈付けされた要約判断データを備えた大規模人文データベース「DeliberationBank」を提案する。
これらのデータセットを使用して、個々の視点から議論の要約を評価することができる微調整されたDeBERTaモデルであるDeliberationJudgeを訓練する。
DeliberationJudge は LLM の幅広い裁判官と比較して,より効率的で,人間の判断に適合している。
DeliberationJudgeでは,18のLLMを評価し,特に少数職の過小評価において,議論の要約において永続的な弱点を明らかにする。
我々のフレームワークは、議論の要約を評価するスケーラブルで信頼性の高い方法を提供する。
関連論文リスト
- Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - Real-World Summarization: When Evaluation Reaches Its Limits [1.4197924572122094]
従来のメトリクス、トレーニング可能なメソッド、LCM-as-a-judgeアプローチを比較します。
その結果、単語のような単純なメトリクスは、人間の判断と驚くほどよく重なることがわかった。
実世界のビジネスへの影響を分析すると、誤った情報やチェック不可能な情報が最大のリスクを生んでいることが分かる。
論文 参考訳(メタデータ) (2025-07-15T17:23:56Z) - Quantitative LLM Judges [48.676042957523045]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域における人間の評価スコアと整合させる定量的LLM判定者を提案する。
モデルは、裁判官のテキスト評価とスコアを用いて、原判事のスコアを改善するために訓練される。
実験により, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。
我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。
以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文 参考訳(メタデータ) (2025-05-28T01:31:54Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。
JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。
アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges [6.609843448260634]
LLM-as-a-judgeパラダイムは,大規模言語モデルを評価するアプローチとして急速に普及している。
本稿では,人間間の合意が高いクリーンなシナリオに焦点を当てる。
我々は、複雑性や長さを早めるための感度や、寛大さへの傾向など、審査モデルの脆弱性を識別する。
論文 参考訳(メタデータ) (2024-06-18T13:49:54Z) - The Impossibility of Fair LLMs [17.812295963158714]
さまざまな技術的公正フレームワークを分析し、公正な言語モデルの開発を難易度の高いものにするために、それぞれに固有の課題を見つけます。
それぞれのフレームワークが汎用的なAIコンテキストに拡張されないか、実際には実現不可能であることを示す。
これらの固有の課題は、LLMを含む汎用AIにおいて、限られた参加入力や限られた測定方法といった経験的な課題が克服されたとしても、持続する。
論文 参考訳(メタデータ) (2024-05-28T04:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。