論文の概要: Can AI Truly Represent Your Voice in Deliberations? A Comprehensive Study of Large-Scale Opinion Aggregation with LLMs
- arxiv url: http://arxiv.org/abs/2510.05154v2
- Date: Wed, 08 Oct 2025 05:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 12:02:36.803182
- Title: Can AI Truly Represent Your Voice in Deliberations? A Comprehensive Study of Large-Scale Opinion Aggregation with LLMs
- Title(参考訳): AIはあなたの声を真に表現できるか? : LLMによる大規模意見集約の総合的研究
- Authors: Shenzhe Zhu, Shu Yang, Michiel A. Bakker, Alex Pentland, Jiaxin Pei,
- Abstract要約: DeliberationBankは大規模な人為的なデータセットで、3,000人の参加者が作成した10のDeliberationの質問に意見データがある。
私たちはDeliberationJudgeをトレーニングします。
我々のフレームワークは、議論の要約を評価するスケーラブルで信頼性の高い方法を提供する。
- 参考スコア(独自算出の注目度): 14.173399999698177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale public deliberations generate thousands of free-form contributions that must be synthesized into representative and neutral summaries for policy use. While LLMs have been shown as a promising tool to generate summaries for large-scale deliberations, they also risk underrepresenting minority perspectives and exhibiting bias with respect to the input order, raising fairness concerns in high-stakes contexts. Studying and fixing these issues requires a comprehensive evaluation at a large scale, yet current practice often relies on LLMs as judges, which show weak alignment with human judgments. To address this, we present DeliberationBank, a large-scale human-grounded dataset with (1) opinion data spanning ten deliberation questions created by 3,000 participants and (2) summary judgment data annotated by 4,500 participants across four dimensions (representativeness, informativeness, neutrality, policy approval). Using these datasets, we train DeliberationJudge, a fine-tuned DeBERTa model that can rate deliberation summaries from individual perspectives. DeliberationJudge is more efficient and more aligned with human judgements compared to a wide range of LLM judges. With DeliberationJudge, we evaluate 18 LLMs and reveal persistent weaknesses in deliberation summarization, especially underrepresentation of minority positions. Our framework provides a scalable and reliable way to evaluate deliberation summarization, helping ensure AI systems are more representative and equitable for policymaking.
- Abstract(参考訳): 大規模な公開審議は、政策利用のための代表的および中立的な要約に合成されなければならない何千もの自由形式の貢献を生成する。
LLMは大規模検討のための要約を生成するための有望なツールとして示されてきたが、少数派視点を過小評価し、入力順序に関して偏見を呈し、高い文脈における公平性の懸念を提起するリスクもある。
これらの問題を調査し、解決するには、大規模で包括的な評価が必要であるが、現在の慣行は、人間の判断と弱い一致を示す判断としてLLMに依存していることが多い。
そこで我々は,(1) 3000人の参加者が作成した10の評定質問にまたがる意見データと(2) 4次元(表現性,情報性,中立性,政策承認)にまたがる4500人の参加者によって注釈付けされた要約判断データを備えた大規模人文データベース「DeliberationBank」を提案する。
これらのデータセットを使用して、個々の視点から議論の要約を評価することができる微調整されたDeBERTaモデルであるDeliberationJudgeを訓練する。
DeliberationJudge は LLM の幅広い裁判官と比較して,より効率的で,人間の判断に適合している。
DeliberationJudgeでは,18のLLMを評価し,特に少数職の過小評価において,議論の要約において永続的な弱点を明らかにする。
我々のフレームワークは、議論の要約を評価するスケーラブルで信頼性の高い方法を提供する。
関連論文リスト
- From Policy to Logic for Efficient and Interpretable Coverage Assessment [4.195679119463805]
本稿では,政策解釈をより効率的かつ解釈可能なものにすることで,人間レビュアーを支援するためのアプローチを提案する。
本稿では,関係する政策言語を明らかにするために,包括的ルールベース推論と包括的ルール対応レトリバーを組み合わせた手法を提案する。
提案手法は,F1スコアの4.5%向上とともに,推論コストの44%削減を実現し,効率と有効性を実証した。
論文 参考訳(メタデータ) (2026-01-03T19:24:51Z) - Large Language Models' Complicit Responses to Illicit Instructions across Socio-Legal Contexts [54.15982476754607]
大規模言語モデル(LLM)が前例のない規模に展開され、毎日のタスクで数百万のユーザを支援している。
本研究は、複雑なファシリテーションを、不正なユーザ指示を可能にするガイダンスやサポートの提供として定義する。
実世界の訴訟と確立された法的枠組みを用いて、269件の違法なシナリオと50件の違法な意図にまたがる評価ベンチマークを構築した。
論文 参考訳(メタデータ) (2025-11-25T16:01:31Z) - Evaluating and Mitigating LLM-as-a-judge Bias in Communication Systems [32.83708359216193]
大規模言語モデル(LLM)は、コミュニケーションシステムにおけるコンテンツの品質を自律的に評価するために、ますます使われている。
本稿では,2つのLLM-as-a-judgeモデルにおける判定バイアスをポイントワイド評価条件下で系統的に検討する。
我々は,実践的なコミュニケーションシナリオにおいて,公平かつ信頼性の高いAIを確保するための4つの潜在的な緩和戦略を提案する。
論文 参考訳(メタデータ) (2025-10-14T12:52:29Z) - Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - Real-World Summarization: When Evaluation Reaches Its Limits [1.4197924572122094]
従来のメトリクス、トレーニング可能なメソッド、LCM-as-a-judgeアプローチを比較します。
その結果、単語のような単純なメトリクスは、人間の判断と驚くほどよく重なることがわかった。
実世界のビジネスへの影響を分析すると、誤った情報やチェック不可能な情報が最大のリスクを生んでいることが分かる。
論文 参考訳(メタデータ) (2025-07-15T17:23:56Z) - Quantitative LLM Judges [48.676042957523045]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域における人間の評価スコアと整合させる定量的LLM判定者を提案する。
モデルは、裁判官のテキスト評価とスコアを用いて、原判事のスコアを改善するために訓練される。
実験により, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。
我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。
以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文 参考訳(メタデータ) (2025-05-28T01:31:54Z) - J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。
我々はReasoningJudgeBenchというベンチマークを紹介します。
EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文 参考訳(メタデータ) (2025-05-19T16:50:35Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。
JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。
アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges [6.609843448260634]
LLM-as-a-judgeパラダイムは,大規模言語モデルを評価するアプローチとして急速に普及している。
本稿では,人間間の合意が高いクリーンなシナリオに焦点を当てる。
我々は、複雑性や長さを早めるための感度や、寛大さへの傾向など、審査モデルの脆弱性を識別する。
論文 参考訳(メタデータ) (2024-06-18T13:49:54Z) - The Impossibility of Fair LLMs [17.812295963158714]
さまざまな技術的公正フレームワークを分析し、公正な言語モデルの開発を難易度の高いものにするために、それぞれに固有の課題を見つけます。
それぞれのフレームワークが汎用的なAIコンテキストに拡張されないか、実際には実現不可能であることを示す。
これらの固有の課題は、LLMを含む汎用AIにおいて、限られた参加入力や限られた測定方法といった経験的な課題が克服されたとしても、持続する。
論文 参考訳(メタデータ) (2024-05-28T04:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。