Fugu-MT 論文翻訳(概要): Context-Aware Composition of Agent Policies by Markov Decision Process Entity Embeddings and Agent Ensembles

論文の概要: Context-Aware Composition of Agent Policies by Markov Decision Process Entity Embeddings and Agent Ensembles

arxiv url: http://arxiv.org/abs/2308.14521v2
Date: Wed, 30 Aug 2023 11:56:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-31 10:40:52.661123
Title: Context-Aware Composition of Agent Policies by Markov Decision Process Entity Embeddings and Agent Ensembles
Title（参考訳）: マルコフ決定過程のエンティティ埋め込みとエージェントアンサンブルによるエージェントポリシーの文脈対応構成
Authors: Nicole Merkle, Ralf Mikut
Abstract要約: 計算エージェントは生命の多くの領域で人間をサポートし、従って異質な文脈で見られる。サービスを実行し、目標志向の行動を実行するためには、エージェントは事前の知識を必要とする。異種コンテキストの表現を可能にする新しいシミュレーションベースアプローチを提案する。
参考スコア（独自算出の注目度）: 1.124711723767572
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Computational agents support humans in many areas of life and are therefore found in heterogeneous contexts. This means they operate in rapidly changing environments and can be confronted with huge state and action spaces. In order to perform services and carry out activities in a goal-oriented manner, agents require prior knowledge and therefore have to develop and pursue context-dependent policies. However, prescribing policies in advance is limited and inflexible, especially in dynamically changing environments. Moreover, the context of an agent determines its choice of actions. Since the environments can be stochastic and complex in terms of the number of states and feasible actions, activities are usually modelled in a simplified way by Markov decision processes so that, e.g., agents with reinforcement learning are able to learn policies, that help to capture the context and act accordingly to optimally perform activities. However, training policies for all possible contexts using reinforcement learning is time-consuming. A requirement and challenge for agents is to learn strategies quickly and respond immediately in cross-context environments and applications, e.g., the Internet, service robotics, cyber-physical systems. In this work, we propose a novel simulation-based approach that enables a) the representation of heterogeneous contexts through knowledge graphs and entity embeddings and b) the context-aware composition of policies on demand by ensembles of agents running in parallel. The evaluation we conducted with the "Virtual Home" dataset indicates that agents with a need to switch seamlessly between different contexts, can request on-demand composed policies that lead to the successful completion of context-appropriate activities without having to learn these policies in lengthy training steps and episodes, in contrast to agents that use reinforcement learning.
Abstract（参考訳）: 計算エージェントは生命の多くの領域で人間をサポートし、従って異質な文脈で見られる。これは、急速に変化する環境で動作し、巨大な状態とアクション空間に直面することができることを意味する。サービスを実行し、目標指向の方法で活動を行うためには、エージェントは事前の知識を必要とし、従ってコンテキスト依存のポリシーを開発し、追求しなければならない。しかし、特に動的に変化する環境において、事前に規定する政策は限定的で柔軟性がない。さらに、エージェントのコンテキストはアクションの選択を決定する。環境は状態の数や実行可能な行動の点で確率的かつ複雑であるため、活動は通常マルコフの決定プロセスによって単純化された方法でモデル化され、例えば、強化学習を持つエージェントがポリシーを学習することができる。しかし、強化学習を用いたあらゆる可能な文脈に対する訓練方針は時間がかかる。エージェントの要求と課題は、迅速に戦略を学習し、インターネット、サービスロボティクス、サイバー物理システムなど、コンテキスト横断環境やアプリケーションで即座に対応することである。本研究では,シミュレーションに基づく新しい手法を提案する。イ知識グラフ及び実体埋め込みによる異質な文脈の表現 b) 並行して実行されるエージェントの集合による需要政策の文脈対応構成仮想ホーム」データセットを用いて行った評価は、異なるコンテキスト間でシームレスに切り替える必要のあるエージェントが、強化学習を利用するエージェントとは対照的に、これらのポリシーを長い訓練ステップやエピソードで学ぶことなく、状況に合った活動の完了につながるオンデマンド構成ポリシーを要求できることを示している。

関連論文リスト

Policy-Conditioned Policies for Multi-Agent Task Solving [53.67744322553693]
本研究では,ポリシーを人間の解釈可能なソースコードとして表現することでギャップを埋めるパラダイムシフトを提案する。本研究では,Large Language Models (LLM) を近似インタプリタとして利用することにより,学習問題を再構築する。我々はこのプロセスを,ポリシーコードをテキスト勾配で最適化するアルゴリズムである TextitProgrammatic Iterated Best Response (PIBR) として定式化する。
論文参考訳（メタデータ） (2025-12-24T07:42:10Z)
Requirements for Aligned, Dynamic Resolution of Conflicts in Operational Constraints [2.752817022620644]
デプロイされた自律型AIシステムは、新規または未特定のコンテキストにおいて、複数のもっともらしい行動コースを評価する必要がある。本稿では,これらの文脈におけるエージェント決定の要件を特徴付ける。また、目標を達成し、人間の期待に沿うために、意思決定を堅牢にするために必要な知識エージェントの種類を特定する。
論文参考訳（メタデータ） (2025-11-14T04:33:15Z)
Policy Search, Retrieval, and Composition via Task Similarity in Collaborative Agentic Systems [12.471774408499817]
Agentic AIの目的は、自身の目標を設定し、変化に積極的に適応し、継続的な経験を通じて振る舞いを洗練するシステムを作ることだ。最近の進歩は、複数の予期せぬタスクに直面している場合、エージェントは他のエージェントによって既に完全にあるいは部分的に学習されている機械学習の知識と再利用のポリシーを共有することの恩恵を受ける可能性があることを示唆している。本研究は,エージェントが選択すべき知識,誰から,いつ,どのように,それを独自の政策に統合して,自身の学習を加速するかを検討する。
論文参考訳（メタデータ） (2025-06-05T20:38:11Z)
EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。 EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文参考訳（メタデータ） (2025-02-18T03:15:55Z)
Large language models in climate and sustainability policy: limits and opportunities [1.4843690728082002]
気候・持続可能性文書に異なるNLP技術、ツール、アプローチを適用し、政策関連および行動可能な措置を導出する。 LLMの使用は、異種テキストベースのデータの処理、分類、要約に成功している。我々の研究は、複雑な政策問題に対するLLMの批判的かつ実証的な基礎的な応用を示し、人工知能を利用した計算社会科学をさらに拡大するための道筋を示唆している。
論文参考訳（メタデータ） (2025-02-04T10:13:14Z)
I Know How: Combining Prior Policies to Solve New Tasks [17.214443593424498]
マルチタスク強化学習は、継続的に進化し、新しいシナリオに適応できるエージェントを開発することを目的としている。新しいタスクごとにスクラッチから学ぶことは、実行可能な、あるいは持続可能な選択肢ではない。我々は、共通の形式を提供する新しいフレームワーク、I Know Howを提案する。
論文参考訳（メタデータ） (2024-06-14T08:44:51Z)
Inferring Behavior-Specific Context Improves Zero-Shot Generalization in Reinforcement Learning [4.902544998453533]
環境の重力レベルなどの文脈的手がかりの理解と活用は、堅牢な一般化に不可欠である。提案アルゴリズムは, 様々なシミュレートされた領域における一般化を改良し, ゼロショット設定における事前の文脈学習技術より優れていることを示す。
論文参考訳（メタデータ） (2024-04-15T07:31:48Z)
AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents [58.807802111818994]
オープンな語彙の指示に従って物理的に妥当な相互作用を学習する新しい階層的手法であるAnySkillを提案する。我々のアプローチは、模倣学習によって訓練された低レベルコントローラを介して、一連のアトミックアクションを開発することから始まります。提案手法の重要な特徴は,手動の報酬工学を使わずにオブジェクトとのインタラクションを学習する,高レベルなポリシーに対する画像ベースの報酬の利用である。
論文参考訳（メタデータ） (2024-03-19T15:41:39Z)
Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文参考訳（メタデータ） (2024-02-27T15:09:20Z)
Dynamics Generalisation in Reinforcement Learning via Adaptive Context-Aware Policies [13.410372954752496]
一般化を改善するために,行動学習に文脈をどのように組み込むべきかについて検討する。ニューラルネットワークアーキテクチャであるDecision Adapterを導入し、アダプタモジュールの重みを生成し、コンテキスト情報に基づいてエージェントの動作を条件付ける。決定適応器は以前に提案したアーキテクチャの有用な一般化であり、より優れた一般化性能をもたらすことを実証的に示す。
論文参考訳（メタデータ） (2023-10-25T14:50:05Z)
Constructing a Good Behavior Basis for Transfer using Generalized Policy Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文参考訳（メタデータ） (2021-12-30T12:20:46Z)
DisCo RL: Distribution-Conditioned Reinforcement Learning for General-Purpose Policies [116.12670064963625]
分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。 DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
論文参考訳（メタデータ） (2021-04-23T16:51:58Z)
Policy Supervectors: General Characterization of Agents by their Behaviour [18.488655590845163]
訪問状態の分布によってエージェントを特徴付ける政策スーパーベクターを提案する。ポリシースーパーベクターは、デザイン哲学に関係なくポリシーを特徴づけ、単一のワークステーションマシン上で数千のポリシーにスケールすることができる。本研究では、強化学習、進化学習、模倣学習における政策の進化を研究することによって、手法の適用性を実証する。
論文参考訳（メタデータ） (2020-12-02T14:43:16Z)
Learning Adaptive Exploration Strategies in Dynamic Environments Through Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-05-06T16:14:48Z)
Learning Goal-oriented Dialogue Policy with Opposite Agent Awareness [116.804536884437]
本稿では,目標指向対話における政策学習のための逆行動認識フレームワークを提案する。我々は、その行動から相手エージェントの方針を推定し、この推定を用いてターゲットエージェントを対象ポリシーの一部として関連づけて改善する。
論文参考訳（メタデータ） (2020-04-21T03:13:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。