論文の概要: Towards Unified Alignment Between Agents, Humans, and Environment
- arxiv url: http://arxiv.org/abs/2402.07744v2
- Date: Wed, 14 Feb 2024 18:43:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 12:05:22.366364
- Title: Towards Unified Alignment Between Agents, Humans, and Environment
- Title(参考訳): エージェントと人間と環境の統一化に向けて
- Authors: Zonghan Yang, An Liu, Zijun Liu, Kaiming Liu, Fangzhou Xiong, Yile
Wang, Zeyuan Yang, Qingyuan Hu, Xinrui Chen, Zhenhe Zhang, Fuwen Luo,
Zhicheng Guo, Peng Li, Yang Liu
- Abstract要約: 本稿では, エージェントと人間の意図, 環境動態, 自己制約の同時調整を提唱する$mathbfUA2$の原則を紹介する。
我々は,WebShopに現実的な機能を導入し,意図を示すユーザプロファイル,複雑な環境力学のパーソナライズされたリランク,自己制約を反映する実行コスト統計などの概念実証を行った。
- 参考スコア(独自算出の注目度): 24.731978646069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of foundation models has led to the prosperity of
autonomous agents, which leverage the universal capabilities of foundation
models to conduct reasoning, decision-making, and environmental interaction.
However, the efficacy of agents remains limited when operating in intricate,
realistic environments. In this work, we introduce the principles of
$\mathbf{U}$nified $\mathbf{A}$lignment for $\mathbf{A}$gents
($\mathbf{UA}^2$), which advocate for the simultaneous alignment of agents with
human intentions, environmental dynamics, and self-constraints such as the
limitation of monetary budgets. From the perspective of $\mathbf{UA}^2$, we
review the current agent research and highlight the neglected factors in
existing agent benchmarks and method candidates. We also conduct
proof-of-concept studies by introducing realistic features to WebShop,
including user profiles to demonstrate intentions, personalized reranking for
complex environmental dynamics, and runtime cost statistics to reflect
self-constraints. We then follow the principles of $\mathbf{UA}^2$ to propose
an initial design of our agent, and benchmark its performance with several
candidate baselines in the retrofitted WebShop. The extensive experimental
results further prove the importance of the principles of $\mathbf{UA}^2$. Our
research sheds light on the next steps of autonomous agent research with
improved general problem-solving abilities.
- Abstract(参考訳): 基礎モデルの急速な進歩は、基礎モデルの普遍的な能力を活用して推論、意思決定、環境相互作用を行う自律エージェントの繁栄につながった。
しかし、複雑な現実的な環境では、エージェントの有効性は限定的である。
本研究では, エージェントと人間の意図, 環境動態, 金融予算の制限などの自己契約の同時調整を提唱する, $\mathbf{u}$nified $\mathbf{a}$lignment for $\mathbf{a}$gents (\mathbf{ua}^2$) の原則を紹介する。
我々は,$\mathbf{ua}^2$の観点から,現在のエージェント研究を概観し,既存のエージェントベンチマークやメソッド候補における無視された要因を強調する。
また,webshopには,意図を示すユーザプロファイル,複雑な環境ダイナミクスのためのパーソナライズされたリランキング,自己制約を反映したランタイムコスト統計など,現実的な機能を導入して概念実証を行う。
次に、$\mathbf{UA}^2$の原則に従い、エージェントの初期設計を提案し、その性能を適合したWebShopのいくつかの候補ベースラインでベンチマークする。
広範な実験結果はさらに、$\mathbf{ua}^2$ の原理の重要性を証明した。
本研究は,一般問題解決能力を向上させた自律エージェント研究の次のステップに光を当てる。
関連論文リスト
- Metareasoning in uncertain environments: a meta-BAMDP framework [1.0923877073891441]
本稿では,未知の報酬/遷移分布を持つ環境におけるメタ推論を扱うメタベイズ適応型MDPフレームワークを提案する。
最初のステップとして、人間の意思決定によく使われる2本腕のBernoulli bandit(TABB)タスクにこのフレームワークを適用します。
論文 参考訳(メタデータ) (2024-08-02T13:15:01Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Inverse Reinforcement Learning with the Average Reward Criterion [3.719493310637464]
本稿では, 逆強化学習(IRL)の問題点を, 平均回帰基準を用いて検討する。
目的は、エージェントが経験豊富なエージェントから状態とアクションのサンプルしか持たない場合、未知のポリシーと報酬関数を回復することである。
論文 参考訳(メタデータ) (2023-05-24T01:12:08Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Multi-Agent Neural Rewriter for Vehicle Routing with Limited Disclosure
of Costs [65.23158435596518]
チームのマルコフゲームとして、部分的に観測可能なコストでマルチサイクルルーティング問題を解く。
我々のマルチエージェント強化学習アプローチである、いわゆるマルチエージェントニューラルリライタは、1エージェントニューラルリライタを利用して、反復的に書き換えるソリューションによって問題を解決する。
論文 参考訳(メタデータ) (2022-06-13T09:17:40Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - CausalCity: Complex Simulations with Agency for Causal Discovery and
Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。
私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。
我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文 参考訳(メタデータ) (2021-06-25T00:21:41Z) - Iterative Feature Matching: Toward Provable Domain Generalization with
Logarithmic Environments [55.24895403089543]
ドメインの一般化は、限られた数のトレーニング環境からのデータで、目に見えないテスト環境でうまく機能することを目的としています。
我々は,O(logd_s)$環境のみを見た後に一般化する予測器を高確率で生成することを保証する反復的特徴マッチングに基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-18T04:39:19Z) - Present-Biased Optimization [8.775878711928591]
論文は,akerlof (1991) が提唱した,時間的一貫性のない計画に関する人間の行動の様々な側面を研究する枠組みを拡張した。
その結果,現在偏りのあるエージェントが計算している解のコストと最適解のコストの比率は,問題制約によって大きく異なることがわかった。
論文 参考訳(メタデータ) (2020-12-29T12:40:59Z) - Relational-Grid-World: A Novel Relational Reasoning Environment and An
Agent Model for Relational Information Extraction [0.0]
強化学習(RL)エージェントは特定の問題のために特別に設計され、一般的には解釈不能な作業プロセスを持つ。
統計的手法に基づくRLアルゴリズムは、論理プログラミングのようなシンボリック人工知能(AI)ツールを用いて、一般化可能性と解釈可能性の観点から改善することができる。
環境オブジェクトの明示的なリレーショナル表現をサポートするモデルフリーなRLアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-07-12T11:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。