論文の概要: Social Contract AI: Aligning AI Assistants with Implicit Group Norms
- arxiv url: http://arxiv.org/abs/2310.17769v2
- Date: Sun, 3 Dec 2023 17:42:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 21:32:50.648944
- Title: Social Contract AI: Aligning AI Assistants with Implicit Group Norms
- Title(参考訳): ソーシャルコントラクトAI: 不正なグループノルムによるAIアシスタントの調整
- Authors: Jan-Philipp Fr\"anken, Sam Kwok, Peixuan Ye, Kanishk Gandhi, Dilip
Arumugam, Jared Moore, Alex Tamkin, Tobias Gerstenberg, Noah D. Goodman
- Abstract要約: 我々は、観察されたインタラクションからユーザの(未知の)好みのモデルを反転させることで、AIアシスタントを整列させるアイデアを探求する。
本研究は,ユーザの嗜好をシミュレートされたプレイヤーの行動を導くポリシーとして定式化し,概念実証シミュレーションを行う。
- 参考スコア(独自算出の注目度): 37.68821926786935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the idea of aligning an AI assistant by inverting a model of
users' (unknown) preferences from observed interactions. To validate our
proposal, we run proof-of-concept simulations in the economic ultimatum game,
formalizing user preferences as policies that guide the actions of simulated
players. We find that the AI assistant accurately aligns its behavior to match
standard policies from the economic literature (e.g., selfish, altruistic).
However, the assistant's learned policies lack robustness and exhibit limited
generalization in an out-of-distribution setting when confronted with a
currency (e.g., grams of medicine) that was not included in the assistant's
training distribution. Additionally, we find that when there is inconsistency
in the relationship between language use and an unknown policy (e.g., an
altruistic policy combined with rude language), the assistant's learning of the
policy is slowed. Overall, our preliminary results suggest that developing
simulation frameworks in which AI assistants need to infer preferences from
diverse users can provide a valuable approach for studying practical alignment
questions.
- Abstract(参考訳): 我々は、観察したインタラクションからユーザの(未知の)好みのモデルを反転させることで、aiアシスタントを連携させるアイデアを探求する。
提案手法を検証するために,我々は,シミュレーションされたプレイヤーの行動を導くポリシーとして,ユーザの好みを定式化する,概念実証シミュレーションを行う。
AIアシスタントは、経済文献(例えば、利己的、利他的)の標準方針と一致するように、その振る舞いを正確に整合させる。
しかし、助手の学習方針は堅牢性に欠けており、助手の訓練分布に含まれない通貨(例えば、薬のグラム)と対立した場合、分配外設定において限定的な一般化を示す。
さらに、言語使用と未知の政策(例えば、無作為な言語と組み合わせた利他主義的な政策)の関係に矛盾がある場合、その政策に対するアシスタントの学習は遅くなる。
全体としては,aiアシスタントが多様なユーザの好みを推測する必要があるシミュレーションフレームワークの開発が,実践的アライメント問題の研究に有用なアプローチとなることを示唆する。
関連論文リスト
- Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - To the Noise and Back: Diffusion for Shared Autonomy [2.341116149201203]
拡散モデルの前方および逆拡散過程を変調した共有自律性に対する新しいアプローチを提案する。
我々のフレームワークは望ましい行動の空間上の分布を学習する。
次に、拡散モデルを使用して、ユーザのアクションをこのディストリビューションのサンプルに変換する。
論文 参考訳(メタデータ) (2023-02-23T18:58:36Z) - Offline Reinforcement Learning for Human-Guided Human-Machine
Interaction with Private Information [110.42866062614912]
個人情報を含む人間と機械の相互作用について検討する。
本ゲームでは,オフライン強化学習(RL)に注目した。
そこで我々は,新たな識別結果を開発し,それを用いて新たな非政治評価手法を提案する。
論文 参考訳(メタデータ) (2022-12-23T06:26:44Z) - Aligning Artificial Intelligence with Humans through Public Policy [0.0]
このエッセイは、下流のタスクに活用可能なポリシーデータの構造を学ぶAIの研究の概要を概説する。
これはAIとポリシーの"理解"フェーズを表していると私たちは考えていますが、AIを整合させるために人的価値の重要な源としてポリシーを活用するには、"理解"ポリシーが必要です。
論文 参考訳(メタデータ) (2022-06-25T21:31:14Z) - Should Machine Learning Models Report to Us When They Are Clueless? [0.0]
我々は、AIモデルは、慣れ親しんだデータの範囲外を誇張していると報告する。
モデルを外挿したかどうかを知ることは、AIモデルの説明に含めるべき基本的な洞察である。
論文 参考訳(メタデータ) (2022-03-23T01:50:24Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - Explainable AI and Adoption of Algorithmic Advisors: an Experimental
Study [0.6875312133832077]
参加者は,人間あるいはアルゴリズムのアドバイザリからアドバイスを受けながら,webベースのゲームをプレイする実験手法を開発した。
異なる種類の説明が採用準備、支払い意欲、および金融AIコンサルタントの信頼に影響を与えるかどうかを評価します。
初対面時の導入を促進する説明の種類は,失敗後の最も成功したものや,コストのかかるものとは異なることが分かりました。
論文 参考訳(メタデータ) (2021-01-05T09:34:38Z) - The AI Economist: Improving Equality and Productivity with AI-Driven Tax
Policies [119.07163415116686]
我々は、経済的平等と生産性を効果的にトレードオフできる税制政策を発見する社会プランナーを訓練する。
競争圧力と市場ダイナミクスを特徴とする経済シミュレーション環境を提案する。
AI主導の税政策は、基本方針よりも平等と生産性のトレードオフを16%改善することを示します。
論文 参考訳(メタデータ) (2020-04-28T06:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。