論文の概要: Social Contract AI: Aligning AI Assistants with Implicit Group Norms
- arxiv url: http://arxiv.org/abs/2310.17769v1
- Date: Thu, 26 Oct 2023 20:27:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 15:34:22.639990
- Title: Social Contract AI: Aligning AI Assistants with Implicit Group Norms
- Title(参考訳): ソーシャルコントラクトAI: 不正なグループノルムによるAIアシスタントの調整
- Authors: Jan-Philipp Fr\"anken, Sam Kwok, Peixuan Ye, Kanishk Gandhi, Dilip
Arumugam, Jared Moore, Alex Tamkin, Tobias Gerstenberg, Noah D. Goodman
- Abstract要約: 我々は、観察されたインタラクションからユーザの(未知の)好みのモデルを反転させることで、AIアシスタントを整列させるアイデアを探求する。
本研究は,ユーザの嗜好をシミュレートされたプレイヤーの行動を導くポリシーとして定式化し,概念実証シミュレーションを行う。
- 参考スコア(独自算出の注目度): 37.68821926786935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the idea of aligning an AI assistant by inverting a model of
users' (unknown) preferences from observed interactions. To validate our
proposal, we run proof-of-concept simulations in the economic ultimatum game,
formalizing user preferences as policies that guide the actions of simulated
players. We find that the AI assistant accurately aligns its behavior to match
standard policies from the economic literature (e.g., selfish, altruistic).
However, the assistant's learned policies lack robustness and exhibit limited
generalization in an out-of-distribution setting when confronted with a
currency (e.g., grams of medicine) that was not included in the assistant's
training distribution. Additionally, we find that when there is inconsistency
in the relationship between language use and an unknown policy (e.g., an
altruistic policy combined with rude language), the assistant's learning of the
policy is slowed. Overall, our preliminary results suggest that developing
simulation frameworks in which AI assistants need to infer preferences from
diverse users can provide a valuable approach for studying practical alignment
questions.
- Abstract(参考訳): 我々は、観察したインタラクションからユーザの(未知の)好みのモデルを反転させることで、aiアシスタントを連携させるアイデアを探求する。
提案手法を検証するために,我々は,シミュレーションされたプレイヤーの行動を導くポリシーとして,ユーザの好みを定式化する,概念実証シミュレーションを行う。
AIアシスタントは、経済文献(例えば、利己的、利他的)の標準方針と一致するように、その振る舞いを正確に整合させる。
しかし、助手の学習方針は堅牢性に欠けており、助手の訓練分布に含まれない通貨(例えば、薬のグラム)と対立した場合、分配外設定において限定的な一般化を示す。
さらに、言語使用と未知の政策(例えば、無作為な言語と組み合わせた利他主義的な政策)の関係に矛盾がある場合、その政策に対するアシスタントの学習は遅くなる。
全体としては,aiアシスタントが多様なユーザの好みを推測する必要があるシミュレーションフレームワークの開発が,実践的アライメント問題の研究に有用なアプローチとなることを示唆する。
関連論文リスト
- CURATe: Benchmarking Personalised Alignment of Conversational AI Assistants [5.7605009639020315]
5つのシナリオ(いずれも337のユースケース)にわたる10の先行モデルの評価
主要な障害モードには、矛盾する好みの適切な重み付け、症状、コンテキストウィンドウ内の重要なユーザ情報に対する注意力の欠如、ユーザ固有の知識の一貫性のない適用が含まれる。
本稿では,AIアシスタントに自己回帰機能,オンラインユーザモデリング,動的リスク評価を組み込むための研究指針を提案する。
論文 参考訳(メタデータ) (2024-10-28T15:59:31Z) - Uncovering Deceptive Tendencies in Language Models: A Simulated Company AI Assistant [0.7856916351510368]
本稿では,企業AIアシスタントの現実的なシミュレーション環境を構築することで,AIシステムが騙される傾向について考察する。
モデルに指示を与えないよう注意したり、そうするよう圧力をかけたりしながら、モデルを欺くように振る舞う傾向のある状況を紹介します。
私たちの研究は、トレーニングされたモデルでさえ、現実的なシナリオでは、時には無害で正直に振る舞うことができ、外部からのプレッシャーが目立ってないことを示しています。
論文 参考訳(メタデータ) (2024-04-25T17:29:53Z) - The Ethics of Advanced AI Assistants [53.89899371095332]
本稿では,高度AIアシスタントがもたらす倫理的・社会的リスクについて論じる。
我々は、高度なAIアシスタントを自然言語インタフェースを持つ人工知能エージェントとして定義し、ユーザに代わってアクションのシーケンスを計画し実行することを目的としている。
先進的なアシスタントの社会規模での展開を考察し、協力、株式とアクセス、誤情報、経済的影響、環境、先進的なAIアシスタントの評価方法に焦点をあてる。
論文 参考訳(メタデータ) (2024-04-24T23:18:46Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - Deconfounding Imitation Learning with Variational Inference [19.99248795957195]
標準的な模倣学習は、スペシャリストが模倣剤とは異なる感覚入力を持つ場合、失敗する可能性がある。
これは、部分的な可観測性によって、因果グラフに隠された共同創設者が生まれるためである。
本稿では,専門家の潜伏情報を推測するために変分推論モデルを訓練し,それを用いて潜伏条件ポリシーを訓練することを提案する。
論文 参考訳(メタデータ) (2022-11-04T18:00:02Z) - Aligning Artificial Intelligence with Humans through Public Policy [0.0]
このエッセイは、下流のタスクに活用可能なポリシーデータの構造を学ぶAIの研究の概要を概説する。
これはAIとポリシーの"理解"フェーズを表していると私たちは考えていますが、AIを整合させるために人的価値の重要な源としてポリシーを活用するには、"理解"ポリシーが必要です。
論文 参考訳(メタデータ) (2022-06-25T21:31:14Z) - Should Machine Learning Models Report to Us When They Are Clueless? [0.0]
我々は、AIモデルは、慣れ親しんだデータの範囲外を誇張していると報告する。
モデルを外挿したかどうかを知ることは、AIモデルの説明に含めるべき基本的な洞察である。
論文 参考訳(メタデータ) (2022-03-23T01:50:24Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - The AI Economist: Improving Equality and Productivity with AI-Driven Tax
Policies [119.07163415116686]
我々は、経済的平等と生産性を効果的にトレードオフできる税制政策を発見する社会プランナーを訓練する。
競争圧力と市場ダイナミクスを特徴とする経済シミュレーション環境を提案する。
AI主導の税政策は、基本方針よりも平等と生産性のトレードオフを16%改善することを示します。
論文 参考訳(メタデータ) (2020-04-28T06:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。