Fugu-MT 論文翻訳(概要): Social Contract AI: Aligning AI Assistants with Implicit Group Norms

論文の概要: Social Contract AI: Aligning AI Assistants with Implicit Group Norms

arxiv url: http://arxiv.org/abs/2310.17769v2
Date: Sun, 3 Dec 2023 17:42:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 21:32:50.648944
Title: Social Contract AI: Aligning AI Assistants with Implicit Group Norms
Title（参考訳）: ソーシャルコントラクトAI: 不正なグループノルムによるAIアシスタントの調整
Authors: Jan-Philipp Fr\"anken, Sam Kwok, Peixuan Ye, Kanishk Gandhi, Dilip Arumugam, Jared Moore, Alex Tamkin, Tobias Gerstenberg, Noah D. Goodman
Abstract要約: 我々は、観察されたインタラクションからユーザの(未知の)好みのモデルを反転させることで、AIアシスタントを整列させるアイデアを探求する。本研究は,ユーザの嗜好をシミュレートされたプレイヤーの行動を導くポリシーとして定式化し,概念実証シミュレーションを行う。
参考スコア（独自算出の注目度）: 37.68821926786935
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We explore the idea of aligning an AI assistant by inverting a model of users' (unknown) preferences from observed interactions. To validate our proposal, we run proof-of-concept simulations in the economic ultimatum game, formalizing user preferences as policies that guide the actions of simulated players. We find that the AI assistant accurately aligns its behavior to match standard policies from the economic literature (e.g., selfish, altruistic). However, the assistant's learned policies lack robustness and exhibit limited generalization in an out-of-distribution setting when confronted with a currency (e.g., grams of medicine) that was not included in the assistant's training distribution. Additionally, we find that when there is inconsistency in the relationship between language use and an unknown policy (e.g., an altruistic policy combined with rude language), the assistant's learning of the policy is slowed. Overall, our preliminary results suggest that developing simulation frameworks in which AI assistants need to infer preferences from diverse users can provide a valuable approach for studying practical alignment questions.
Abstract（参考訳）: 我々は、観察したインタラクションからユーザの(未知の)好みのモデルを反転させることで、aiアシスタントを連携させるアイデアを探求する。提案手法を検証するために,我々は,シミュレーションされたプレイヤーの行動を導くポリシーとして,ユーザの好みを定式化する,概念実証シミュレーションを行う。 AIアシスタントは、経済文献(例えば、利己的、利他的)の標準方針と一致するように、その振る舞いを正確に整合させる。しかし、助手の学習方針は堅牢性に欠けており、助手の訓練分布に含まれない通貨(例えば、薬のグラム)と対立した場合、分配外設定において限定的な一般化を示す。さらに、言語使用と未知の政策(例えば、無作為な言語と組み合わせた利他主義的な政策)の関係に矛盾がある場合、その政策に対するアシスタントの学習は遅くなる。全体としては,aiアシスタントが多様なユーザの好みを推測する必要があるシミュレーションフレームワークの開発が,実践的アライメント問題の研究に有用なアプローチとなることを示唆する。

関連論文リスト

Learning Steerable Clarification Policies with Collaborative Self-play [67.67872810596839]
不明瞭なクエリを処理するために、AIアシスタントは不確実性を管理するためのポリシーが必要である。我々は,この不確実性を管理するために,自己再生を用いて評価可能な政策を訓練することを提案する。このことが、提供されたコストに応じて予測可能な振る舞いを変更する、評価可能なポリシーにつながることを示す。
論文参考訳（メタデータ） (2025-12-03T18:49:54Z)
GTAlign: Game-Theoretic Alignment of LLM Assistants for Social Welfare [34.11305361948566]
推論と学習の両方にゲーム理論による意思決定を統合するアライメントフレームワークを提案する。 GTAlignは,ベースラインに比べて推論効率,回答品質,社会福祉を著しく改善することを示した。
論文参考訳（メタデータ） (2025-10-10T00:05:14Z)
FAIRGAME: a Framework for AI Agents Bias Recognition using Game Theory [51.96049148869987]
ゲーム理論を用いたAIエージェントバイアス認識フレームワークFAIRGAMEを提案する。我々は,AIエージェント間の人気ゲームにおけるバイアスのある結果を明らかにするために,その実装と利用について述べる。全体として、FAIRGAMEはユーザーが望むゲームやシナリオを確実に簡単にシミュレートできる。
論文参考訳（メタデータ） (2025-04-19T15:29:04Z)
CURATe: Benchmarking Personalised Alignment of Conversational AI Assistants [5.7605009639020315]
5つのシナリオ(いずれも337のユースケース)にわたる10の先行モデルの評価主要な障害モードには、矛盾する好みの適切な重み付け、症状、コンテキストウィンドウ内の重要なユーザ情報に対する注意力の欠如、ユーザ固有の知識の一貫性のない適用が含まれる。本稿では,AIアシスタントに自己回帰機能,オンラインユーザモデリング,動的リスク評価を組み込むための研究指針を提案する。
論文参考訳（メタデータ） (2024-10-28T15:59:31Z)
Uncovering Deceptive Tendencies in Language Models: A Simulated Company AI Assistant [0.7856916351510368]
本稿では,企業AIアシスタントの現実的なシミュレーション環境を構築することで,AIシステムが騙される傾向について考察する。モデルに指示を与えないよう注意したり、そうするよう圧力をかけたりしながら、モデルを欺くように振る舞う傾向のある状況を紹介します。私たちの研究は、トレーニングされたモデルでさえ、現実的なシナリオでは、時には無害で正直に振る舞うことができ、外部からのプレッシャーが目立ってないことを示しています。
論文参考訳（メタデータ） (2024-04-25T17:29:53Z)
The Ethics of Advanced AI Assistants [53.89899371095332]
本稿では,高度AIアシスタントがもたらす倫理的・社会的リスクについて論じる。我々は、高度なAIアシスタントを自然言語インタフェースを持つ人工知能エージェントとして定義し、ユーザに代わってアクションのシーケンスを計画し実行することを目的としている。先進的なアシスタントの社会規模での展開を考察し、協力、株式とアクセス、誤情報、経済的影響、環境、先進的なAIアシスタントの評価方法に焦点をあてる。
論文参考訳（メタデータ） (2024-04-24T23:18:46Z)
Symmetry-Breaking Augmentations for Ad Hoc Teamwork [9.334943633357065]
本稿では, この課題に対する新しいアプローチとして, SBA (Symsymmetric-breaking Augmentations) を導入する。トレーニングチームメイト間の振る舞いの多様性を高めるために対称性を持つ操作を適用することで、SBAはエージェントに未知の戦略に対する堅牢な応答を学ぶように促す。我々の発見は、AIシステムが様々な人間の慣習やアライメントのコアメカニクスにどのように適応できるかについての洞察を提供する。
論文参考訳（メタデータ） (2024-02-15T14:49:28Z)
Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文参考訳（メタデータ） (2023-12-22T17:57:57Z)
Residual Q-Learning: Offline and Online Policy Customization without Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。政策カスタマイズと呼ばれる新しい問題設定を定式化する。本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文参考訳（メタデータ） (2023-06-15T22:01:19Z)
Deconfounding Imitation Learning with Variational Inference [19.99248795957195]
標準的な模倣学習は、スペシャリストが模倣剤とは異なる感覚入力を持つ場合、失敗する可能性がある。これは、部分的な可観測性によって、因果グラフに隠された共同創設者が生まれるためである。本稿では,専門家の潜伏情報を推測するために変分推論モデルを訓練し,それを用いて潜伏条件ポリシーを訓練することを提案する。
論文参考訳（メタデータ） (2022-11-04T18:00:02Z)
Aligning Artificial Intelligence with Humans through Public Policy [0.0]
このエッセイは、下流のタスクに活用可能なポリシーデータの構造を学ぶAIの研究の概要を概説する。これはAIとポリシーの"理解"フェーズを表していると私たちは考えていますが、AIを整合させるために人的価値の重要な源としてポリシーを活用するには、"理解"ポリシーが必要です。
論文参考訳（メタデータ） (2022-06-25T21:31:14Z)
Should Machine Learning Models Report to Us When They Are Clueless? [0.0]
我々は、AIモデルは、慣れ親しんだデータの範囲外を誇張していると報告する。モデルを外挿したかどうかを知ることは、AIモデルの説明に含めるべき基本的な洞察である。
論文参考訳（メタデータ） (2022-03-23T01:50:24Z)
Building a Foundation for Data-Driven, Interpretable, and Robust Policy Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。 RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文参考訳（メタデータ） (2021-08-06T01:30:41Z)
The AI Economist: Improving Equality and Productivity with AI-Driven Tax Policies [119.07163415116686]
我々は、経済的平等と生産性を効果的にトレードオフできる税制政策を発見する社会プランナーを訓練する。競争圧力と市場ダイナミクスを特徴とする経済シミュレーション環境を提案する。 AI主導の税政策は、基本方針よりも平等と生産性のトレードオフを16%改善することを示します。
論文参考訳（メタデータ） (2020-04-28T06:57:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。