論文の概要: Learning to Guide and to Be Guided in the Architect-Builder Problem
- arxiv url: http://arxiv.org/abs/2112.07342v1
- Date: Tue, 14 Dec 2021 12:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 15:19:17.552430
- Title: Learning to Guide and to Be Guided in the Architect-Builder Problem
- Title(参考訳): アーキテクト-ビルダー問題におけるガイドとガイドの学習
- Authors: Barde Paul, Karch Tristan, Nowrouzezahrai Derek, Moulin-Frier
Cl\'ement, Pal Christopher, Oudeyer Pierre-Yves
- Abstract要約: 私たちは、アクションを実行するがタスクのゴールを無視する$builder$をコーディネートすることを学ぶインタラクティブエージェントに興味があります。
アーキテクト・ビルダー問題に対する解決策として、アーキテクト・ビルダー反復誘導(ABIG)を提案する。
ABIGは、アーキテクトとビルダーのペアが手元にあるタスクを解決できるように、低レベルで高周波な誘導通信プロトコルを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are interested in interactive agents that learn to coordinate, namely, a
$builder$ -- which performs actions but ignores the goal of the task -- and an
$architect$ which guides the builder towards the goal of the task. We define
and explore a formal setting where artificial agents are equipped with
mechanisms that allow them to simultaneously learn a task while at the same
time evolving a shared communication protocol. The field of Experimental
Semiotics has shown the extent of human proficiency at learning from a priori
unknown instructions meanings. Therefore, we take inspiration from it and
present the Architect-Builder Problem (ABP): an asymmetrical setting in which
an architect must learn to guide a builder towards constructing a specific
structure. The architect knows the target structure but cannot act in the
environment and can only send arbitrary messages to the builder. The builder on
the other hand can act in the environment but has no knowledge about the task
at hand and must learn to solve it relying only on the messages sent by the
architect. Crucially, the meaning of messages is initially not defined nor
shared between the agents but must be negotiated throughout learning. Under
these constraints, we propose Architect-Builder Iterated Guiding (ABIG), a
solution to the Architect-Builder Problem where the architect leverages a
learned model of the builder to guide it while the builder uses self-imitation
learning to reinforce its guided behavior. We analyze the key learning
mechanisms of ABIG and test it in a 2-dimensional instantiation of the ABP
where tasks involve grasping cubes, placing them at a given location, or
building various shapes. In this environment, ABIG results in a low-level,
high-frequency, guiding communication protocol that not only enables an
architect-builder pair to solve the task at hand, but that can also generalize
to unseen tasks.
- Abstract(参考訳): 私たちは、アクションを実行するがタスクのゴールを無視する $builder$ -- と、タスクのゴールに向かってビルダーを導く $architect$ -- をコーディネートすることを学ぶインタラクティブエージェントに興味があります。
我々は,共有通信プロトコルを進化させながらタスクを同時に学習する機構を,人工エージェントが備えている形式的な環境を定義し,探索する。
実験セミオティックス(Experimental Semiotics)の分野は、事前の未知の意味から学ぶ人間の習熟度を示している。
それゆえ、我々はそれからインスピレーションを得て、アーキテクト-ビルダー問題(abp: architect-builder problem)を紹介します。
アーキテクトはターゲット構造を知っているが、環境では動作せず、ビルド者には任意のメッセージしか送れない。
一方、ビルダーは、環境の中で振る舞うことができるが、手元にあるタスクに関する知識がなく、アーキテクトが送ったメッセージにのみ依存して解決を学ばなければならない。
メッセージの意味は、当初はエージェント間で定義も共有もされていないが、学習を通じて交渉されなければならない。
このような制約の下で、アーキテクトはアーキテクトの学習モデルを利用してガイドし、ビルダーは自己模倣学習を使ってガイド行動を強化します。
ABIGの鍵となる学習メカニズムを解析し、ABPの2次元インスタンス化において、タスクがキューブをつかみ、所定の場所に配置したり、様々な形状を作る。
この環境では、ABIGは、アーキテクトとビルダーのペアが手元にあるタスクを解決できるだけでなく、目に見えないタスクにも一般化できる、低レベルで高周波な誘導通信プロトコルをもたらす。
関連論文リスト
- Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z) - Building Optimal Neural Architectures using Interpretable Knowledge [15.66288233048004]
AutoBuildは、オペレーションとアーキテクチャモジュールの潜伏した埋め込みと、それらが現れるアーキテクチャの地味なパフォーマンスを整合させるスキームである。
比較的少数の評価済みアーキテクチャをマイニングすることで、AutoBuildは高品質なアーキテクチャを直接構築するか、あるいは検索スペースを減らして関連分野に集中できることを示す。
論文 参考訳(メタデータ) (2024-03-20T04:18:38Z) - Towards an Interpretable Hierarchical Agent Framework using Semantic
Goals [6.677083312952721]
本研究は、計画と意味的目標を指向した強化学習を組み合わせることで、解釈可能な階層型エージェントフレームワークを導入する。
我々は,ロボットブロック操作タスクの枠組みを評価し,他の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-16T02:04:13Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Learning to Execute Actions or Ask Clarification Questions [9.784428580459776]
命令をいつ要求するか、実行すべきかを判断できる新しいビルダーエージェントモデルを提案する。
実験結果から,本モデルが協調作業における最先端性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-04-18T15:36:02Z) - Policy Architectures for Compositional Generalization in Control [71.61675703776628]
本稿では,タスクにおけるエンティティベースの構成構造をモデル化するためのフレームワークを提案する。
私たちのポリシーは柔軟で、アクションプリミティブを必要とせずにエンドツーエンドでトレーニングできます。
論文 参考訳(メタデータ) (2022-03-10T06:44:24Z) - Provable Hierarchical Lifelong Learning with a Sketch-based Modular
Architecture [28.763868513396705]
我々のアーキテクチャは理論的には、以前に学習されたタスクをサブルーチンとして、関数にアクセスできる関数によって解決できるタスクを学習できることを示します。
このような方法で学習できるタスクは、実際に標準的なトレーニング手法では学ばないことを実証的に示します。
論文 参考訳(メタデータ) (2021-12-21T00:45:03Z) - In a Nutshell, the Human Asked for This: Latent Goals for Following
Temporal Specifications [16.9640514047609]
時間論理(TL)で表されるOOD(out-of Distribution)マルチタスク命令を満たすことを目標とするエージェント構築の問題に対処する。
近年の研究では、深層学習アーキテクチャがDRLエージェントにTLのOODタスクを解くための重要な特徴であることを示す。
本稿では,人間の指示と環境からの現在の観察の両方を考慮し,エージェントに現在の目標の潜在表現を誘導する新しいディープラーニングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-18T16:53:31Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。