論文の概要: Learning to Look: Seeking Information for Decision Making via Policy Factorization
- arxiv url: http://arxiv.org/abs/2410.18964v1
- Date: Thu, 24 Oct 2024 17:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:48:52.718659
- Title: Learning to Look: Seeking Information for Decision Making via Policy Factorization
- Title(参考訳): 見ることを学ぶ:政策因子化による意思決定のための情報を探る
- Authors: Shivin Dass, Jiaheng Hu, Ben Abbatematteo, Peter Stone, Roberto Martín-Martín,
- Abstract要約: 本研究では,情報検索政策と情報受信政策からなる二重政治ソリューションであるDiaMを提案する。
我々は、情報探索行動を必要とする5つの操作タスクにおいて、二重ポリシーソリューションの能力を実証する。
- 参考スコア(独自算出の注目度): 36.87799092971961
- License:
- Abstract: Many robot manipulation tasks require active or interactive exploration behavior in order to be performed successfully. Such tasks are ubiquitous in embodied domains, where agents must actively search for the information necessary for each stage of a task, e.g., moving the head of the robot to find information relevant to manipulation, or in multi-robot domains, where one scout robot may search for the information that another robot needs to make informed decisions. We identify these tasks with a new type of problem, factorized Contextual Markov Decision Processes, and propose DISaM, a dual-policy solution composed of an information-seeking policy that explores the environment to find the relevant contextual information and an information-receiving policy that exploits the context to achieve the manipulation goal. This factorization allows us to train both policies separately, using the information-receiving one to provide reward to train the information-seeking policy. At test time, the dual agent balances exploration and exploitation based on the uncertainty the manipulation policy has on what the next best action is. We demonstrate the capabilities of our dual policy solution in five manipulation tasks that require information-seeking behaviors, both in simulation and in the real-world, where DISaM significantly outperforms existing methods. More information at https://robin-lab.cs.utexas.edu/learning2look/.
- Abstract(参考訳): 多くのロボット操作タスクは、成功させるために、アクティブまたはインタラクティブな探索行動を必要とする。
そのようなタスクは、例えば、操作に関連する情報を見つけるためにロボットの頭部を移動させたり、あるスカウトロボットが他のロボットが情報的決定を行うために必要な情報を探すために複数のロボットドメインで活発に探索する必要がある。
我々は,これらのタスクを新たなタイプの問題,分解された文脈マルコフ決定プロセス,および操作目標を達成するためにコンテキストを利用した情報認識ポリシを探索する環境探索のための情報探索ポリシと情報認識ポリシからなる二重政治ソリューションDiaMを提案する。
この因子化により、情報収集ポリシーをトレーニングするための報酬を提供するために、情報受信ポリシーを使用して、両方のポリシーを個別に訓練することができる。
テスト時には、二重エージェントは、操作ポリシーが持つ不確実性に基づいて、探索と搾取のバランスをとる。
我々は,DiaMが既存手法よりも優れている実世界とシミュレーションの両方において,情報探索行動を必要とする5つの操作タスクにおいて,我々の二重ポリシーソリューションの能力を実証する。
詳細はhttps://robin-lab.cs.utexas.edu/learning2look/を参照のこと。
関連論文リスト
- A Survey of Embodied Learning for Object-Centric Robotic Manipulation [27.569063968870868]
オブジェクト中心のロボット操作のための身体学習は、AIの急速に発展し、挑戦的な分野である。
データ駆動機械学習とは異なり、具体化学習は環境との物理的相互作用を通じてロボット学習に焦点を当てる。
論文 参考訳(メタデータ) (2024-08-21T11:32:09Z) - Learning active tactile perception through belief-space control [21.708391958446274]
本稿では,創造的世界モデルを開発することにより,触覚探索政策を自律的に学習する手法を提案する。
本手法は,目的が所望のオブジェクト特性を推定することである3つのシミュレーションタスクに対して評価する。
提案手法は, 所望のプロパティに関する情報を直感的に収集するポリシーを発見できることがわかった。
論文 参考訳(メタデータ) (2023-11-30T21:54:42Z) - Explaining the Decisions of Deep Policy Networks for Robotic
Manipulations [27.526882375069963]
本稿では,ロボットのポリシーモデルの決定にどのような影響を及ぼすかを説明するために,入力属性法による深いポリシーモデルの明示的な分析を行う。
我々の知る限りでは、ロボット操作のためにオンラインのディープポリシーネットワークにおけるマルチモーダルセンサ入力の入力属性の動的変化を特定する最初のレポートである。
論文 参考訳(メタデータ) (2023-10-30T10:44:12Z) - AVIS: Autonomous Visual Information Seeking with Large Language Model
Agent [123.75169211547149]
本稿では,視覚的質問応答フレームワークAVISを提案する。
本手法は,LLM(Large Language Model)を利用して外部ツールの利用を動的に強化する。
AVIS は Infoseek や OK-VQA などの知識集約型視覚質問応答ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-06-13T20:50:22Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - The Rational Selection of Goal Operations and the Integration ofSearch
Strategies with Goal-Driven Autonomy [3.169249926144497]
認識と制御のリンクは、実世界から象徴的表現(およびバック)への連続的な値変換の問題を管理する必要がある。
効果的な振る舞いを生成するには、推論には、新しい情報を計画し、取得し、更新し、異常を検出し、応答し、システムの目標に対して様々な操作を行う能力が含まれなければならない。
本稿では,複数の目標操作が共起して相互作用する際のエージェントの選択について検討し,その選択方法を確立する。
論文 参考訳(メタデータ) (2022-01-21T20:53:49Z) - Learning When and What to Ask: a Hierarchical Reinforcement Learning
Framework [17.017688226277834]
我々は、人間から追加情報を要求するタイミングを決定するための階層的な強化学習フレームワークを定式化した。
シミュレーションによるナビゲーション問題の結果から,本フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2021-10-14T01:30:36Z) - Towards Coordinated Robot Motions: End-to-End Learning of Motion
Policies on Transform Trees [63.31965375413414]
人間による実証から構造化政策を学習し、マルチタスクの課題解決を提案します。
我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。
マルチタスク問題に適したエンドツーエンドの学習目標関数を導き出します。
論文 参考訳(メタデータ) (2020-12-24T22:46:22Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。