論文の概要: Following Instructions by Imagining and Reaching Visual Goals
- arxiv url: http://arxiv.org/abs/2001.09373v1
- Date: Sat, 25 Jan 2020 23:26:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 23:59:37.399092
- Title: Following Instructions by Imagining and Reaching Visual Goals
- Title(参考訳): ImaginingとReaching Visual Goalによる指導の追跡
- Authors: John Kanu, Eadom Dessalene, Xiaomin Lin, Cornelia Fermuller, Yiannis
Aloimonos
- Abstract要約: 本研究では,空間的推論を用いて時間的に拡張されたタスクを学習するための新しいフレームワークを提案する。
本フレームワークは生の画素画像上で動作し,事前の言語的知識や知覚的知識を前提とせず,本質的なモチベーションを通じて学習する。
シミュレーションによる対話型3D環境において,ロボットアームを用いた2つの環境で本手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 8.19944635961041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While traditional methods for instruction-following typically assume prior
linguistic and perceptual knowledge, many recent works in reinforcement
learning (RL) have proposed learning policies end-to-end, typically by training
neural networks to map joint representations of observations and instructions
directly to actions. In this work, we present a novel framework for learning to
perform temporally extended tasks using spatial reasoning in the RL framework,
by sequentially imagining visual goals and choosing appropriate actions to
fulfill imagined goals. Our framework operates on raw pixel images, assumes no
prior linguistic or perceptual knowledge, and learns via intrinsic motivation
and a single extrinsic reward signal measuring task completion. We validate our
method in two environments with a robot arm in a simulated interactive 3D
environment. Our method outperforms two flat architectures with raw-pixel and
ground-truth states, and a hierarchical architecture with ground-truth states
on object arrangement tasks.
- Abstract(参考訳): 従来の指示追従法は言語学と知覚学の知識を前提としていたが、近年の強化学習(RL)では、観察と指示の合同表現を行動に直接マッピングするニューラルネットワークを訓練することで、エンドツーエンドの学習ポリシーを提案している。
本研究では,RLフレームワークにおける空間的推論を用いて時間的に拡張されたタスクを学習するための新しいフレームワークを提案する。
本フレームワークは,生の画素画像上で動作し,事前の言語的知識や知覚的知識を前提とせず,本質的なモチベーションと単一外部報酬信号によってタスク完了を測定する。
本手法は,ロボットアームを用いた対話型3次元環境における2つの環境において検証を行う。
提案手法は,raw-pixel と ground-truth の2つのフラットアーキテクチャと,オブジェクト配置タスクにおける ground-truth 状態を持つ階層アーキテクチャを上回っている。
関連論文リスト
- TIPS: Text-Image Pretraining with Spatial Awareness [13.38247732379754]
自己教師付き画像のみの事前訓練は、多くの視覚的応用にとって依然としてゴートな方法である。
本稿では,高密度かつ大域的な視覚タスクに有効な汎用画像テキストモデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T21:05:04Z) - DecisionNCE: Embodied Multimodal Representations via Implicit Preference Learning [27.705230758809094]
マルチモーダル・プレトレーニングは,自律型ロボットにおける表現学習の目標のトリニティのための効果的な戦略である。
画像シーケンスから意味のあるタスク進行情報を同時に抽出できる統一目的を提案する。
DecisionNCEは、ローカルおよびグローバルなタスク進行機能の両方をエレガントに抽出する、具体化された表現学習フレームワークを提供する。
論文 参考訳(メタデータ) (2024-02-28T07:58:24Z) - Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。
変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。
本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - InstructDiffusion: A Generalist Modeling Interface for Vision Tasks [52.981128371910266]
InstructDiffusionはコンピュータビジョンタスクを人間の指示に合わせるためのフレームワークである。
InstructDiffusionは、タスクの理解や生成タスクなど、さまざまなビジョンタスクを処理できる。
目に見えないタスクを処理し、新しいデータセットで前のメソッドより優れていることも示しています。
論文 参考訳(メタデータ) (2023-09-07T17:56:57Z) - Semi Supervised Meta Learning for Spatiotemporal Learning [0.0]
メタラーニングを既存の表現学習アーキテクチャに適用することの影響を理解する。
メモリ拡張ニューラルネットワーク(MANN)アーキテクチャを用いて,メタラーニングをフレームワークに適用する。
論文 参考訳(メタデータ) (2023-07-09T04:09:58Z) - Pretraining on Interactions for Learning Grounded Affordance
Representations [22.290431852705662]
我々はニューラルネットワークを訓練し、シミュレーションされた相互作用において物体の軌道を予測する。
我々のネットワークの潜在表現は、観測された価格と観測されていない価格の両方を区別していることが示される。
提案する手法は,従来の語彙表現の形式的意味概念と統合可能な言語学習の手法である。
論文 参考訳(メタデータ) (2022-07-05T19:19:53Z) - Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。
No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。
このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。
各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文 参考訳(メタデータ) (2022-06-13T16:20:42Z) - Context-Aware Sequence Alignment using 4D Skeletal Augmentation [67.05537307224525]
コンピュータビジョン、ロボティクス、混合現実の多くの応用において、ビデオにおける人間の行動の微粒化の時間的アライメントが重要である。
本稿では,アクションのシーケンスを整列するコンテキスト認識型自己教師型学習アーキテクチャを提案する。
特に、CASAは、人間の行動の空間的・時間的文脈を組み込むために、自己注意と相互注意のメカニズムを採用している。
論文 参考訳(メタデータ) (2022-04-26T10:59:29Z) - CLIPort: What and Where Pathways for Robotic Manipulation [35.505615833638124]
広義の意味理解とトランスポーターの空間的精度を組み合わせた言語条件の模倣学習エージェントであるCLIPortを提案する。
我々のフレームワークは、オブジェクトのポーズ、インスタンスのセグメンテーション、メモリ、シンボル状態、構文構造の明示的な表現なしに、様々な言語仕様のテーブルトップタスクを解くことができる。
論文 参考訳(メタデータ) (2021-09-24T17:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。