論文の概要: A Roadmap to Pluralistic Alignment
- arxiv url: http://arxiv.org/abs/2402.05070v3
- Date: Tue, 20 Aug 2024 19:14:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 22:54:42.292967
- Title: A Roadmap to Pluralistic Alignment
- Title(参考訳): 多元的アライメントへの道程
- Authors: Taylor Sorensen, Jared Moore, Jillian Fisher, Mitchell Gordon, Niloofar Mireshghallah, Christopher Michael Rytting, Andre Ye, Liwei Jiang, Ximing Lu, Nouha Dziri, Tim Althoff, Yejin Choi,
- Abstract要約: 本稿では,言語モデルをテストベッドとして用いた多元的アライメントのロードマップを提案する。
我々は,AIシステムにおける多元性を定義・運用する3つの可能な方法を特定し,定式化する。
我々は、現在のアライメント技術は、基本的に多元的AIに限られていると論じる。
- 参考スコア(独自算出の注目度): 49.29107308098236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With increased power and prevalence of AI systems, it is ever more critical that AI systems are designed to serve all, i.e., people with diverse values and perspectives. However, aligning models to serve pluralistic human values remains an open research question. In this piece, we propose a roadmap to pluralistic alignment, specifically using language models as a test bed. We identify and formalize three possible ways to define and operationalize pluralism in AI systems: 1) Overton pluralistic models that present a spectrum of reasonable responses; 2) Steerably pluralistic models that can steer to reflect certain perspectives; and 3) Distributionally pluralistic models that are well-calibrated to a given population in distribution. We also formalize and discuss three possible classes of pluralistic benchmarks: 1) Multi-objective benchmarks, 2) Trade-off steerable benchmarks, which incentivize models to steer to arbitrary trade-offs, and 3) Jury-pluralistic benchmarks which explicitly model diverse human ratings. We use this framework to argue that current alignment techniques may be fundamentally limited for pluralistic AI; indeed, we highlight empirical evidence, both from our own experiments and from other work, that standard alignment procedures might reduce distributional pluralism in models, motivating the need for further research on pluralistic alignment.
- Abstract(参考訳): AIシステムのパワー向上と普及により、AIシステムはあらゆる、すなわちさまざまな価値と視点を持つ人々に役立つように設計されていることがますます重要になる。
しかし、多元的人間の価値を提供するためにモデルを整列させることは、オープンな研究課題である。
本稿では,言語モデルをテストベッドとして用いた多元的アライメントのロードマップを提案する。
AIシステムにおける多元性を定義・運用する3つの可能な方法を特定し,定式化する。
1) 合理的応答のスペクトルを示すオーバートン多元性モデル
2) 一定の視点を反映できる安定多元性モデル,及び
3)分布の集団によく分類された分布多元性モデル。
また、多元性ベンチマークの3つの可能なクラスを形式化し、議論する。
1)多目的ベンチマーク
2 任意のトレードオフを行うためのモデルにインセンティブを与える、トレードオフ可能なベンチマーク
3) 多様な人間格付けを明示的にモデル化した鑑定的ベンチマーク。
この枠組みは、現在のアライメント技術は、基本的には多元的AIに限られていると論じるために用いられるが、実際、我々は、我々の実験と他の研究の両方から、標準アライメント手順はモデルにおける分散多元主義を減らし、多元的アライメントに関するさらなる研究の必要性を動機付けている、経験的な証拠を強調している。
関連論文リスト
- Plurals: A System for Guiding LLMs Via Simulated Social Ensembles [1.9034114150823245]
本稿では,多言語AIのためのシステムとPythonライブラリであるPluralsを紹介する。
複数は、カスタマイズ可能な構造内で意図的にエージェントで構成され、モデレーターは熟考を監督する。
6つのケーススタディは、理論的構成と有効性に対する忠実さを示している。
論文 参考訳(メタデータ) (2024-09-25T17:38:39Z) - Eureka: Evaluating and Understanding Large Foundation Models [23.020996995362104]
Eurekaは、シングルスコアのレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するためのオープンソースのフレームワークです。
我々は、12の最先端モデルを分析し、失敗理解とモデル比較に関する詳細な洞察を提供する。
論文 参考訳(メタデータ) (2024-09-13T18:01:49Z) - Ranking Large Language Models without Ground Truth [24.751931637152524]
大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及に伴って重要な問題となっている。
我々は、プロンプトのデータセットが与えられた場合、根拠となる真実や参照応答にアクセスせずにそれらをランク付けする、新しい視点を提供する。
この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。
論文 参考訳(メタデータ) (2024-02-21T00:49:43Z) - Steering Responsible AI: A Case for Algorithmic Pluralism [0.0]
アルゴリズム的多元性の概念をさらに検討することを提案する。
アルゴリズム的多元主義は、民主主義にとって非常に不可欠である多様性、多重性、包摂性を維持できる可能性があると私は論じます。
論文 参考訳(メタデータ) (2023-11-20T18:45:04Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - Making sense of spoken plurals [1.80476943513092]
本研究は、英語における名詞特異点とその複数変種の意味論に焦点をあてる。
1つのモデル(FRACSS)は、特異な意味論から複数の意味論を予測する際に、すべての特異な複数対を考慮に入れるべきである。
他のモデル(CCA)は、複数の概念化は、主に基本語のセマンティッククラスに依存すると主張している。
論文 参考訳(メタデータ) (2022-07-05T10:44:26Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。