論文の概要: Breaking Down the Task: A Unit-Grained Hybrid Training Framework for
Vision and Language Decision Making
- arxiv url: http://arxiv.org/abs/2307.08016v1
- Date: Sun, 16 Jul 2023 11:54:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 16:12:49.716243
- Title: Breaking Down the Task: A Unit-Grained Hybrid Training Framework for
Vision and Language Decision Making
- Title(参考訳): タスクのブレークダウン: ビジョンと言語決定のためのユニットグレードのハイブリッドトレーニングフレームワーク
- Authors: Ruipu Luo, Jiwen Zhang, Zhongyu Wei
- Abstract要約: 視覚言語意思決定(VLDM)は、難しいマルチモーダルタスクである。
環境の観点からは、タスクエピソードはきめ細かいテキストユニットに分けることができる。
本研究では,環境中を活発に探索し,露光バイアスを低減できる新しいハイブリッド学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.87916700767421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language decision making (VLDM) is a challenging multimodal task. The
agent have to understand complex human instructions and complete compositional
tasks involving environment navigation and object manipulation. However, the
long action sequences involved in VLDM make the task difficult to learn. From
an environment perspective, we find that task episodes can be divided into
fine-grained \textit{units}, each containing a navigation phase and an
interaction phase. Since the environment within a unit stays unchanged, we
propose a novel hybrid-training framework that enables active exploration in
the environment and reduces the exposure bias. Such framework leverages the
unit-grained configurations and is model-agnostic. Specifically, we design a
Unit-Transformer (UT) with an intrinsic recurrent state that maintains a
unit-scale cross-modal memory. Through extensive experiments on the TEACH
benchmark, we demonstrate that our proposed framework outperforms existing
state-of-the-art methods in terms of all evaluation metrics. Overall, our work
introduces a novel approach to tackling the VLDM task by breaking it down into
smaller, manageable units and utilizing a hybrid-training framework. By doing
so, we provide a more flexible and effective solution for multimodal decision
making.
- Abstract(参考訳): 視覚言語意思決定(VLDM)は、難しいマルチモーダルタスクである。
エージェントは複雑なヒューマンインストラクションを理解し、環境ナビゲーションやオブジェクト操作を含む完全な構成タスクを理解する必要がある。
しかしながら、VLDMに関わる長いアクションシーケンスは、タスクの学習を困難にする。
環境の観点からすると、タスクのエピソードは、ナビゲーションフェーズとインタラクションフェーズを含むきめ細かい \textit{units} に分割できることがわかった。
ユニット内の環境は変化しないため,環境中を活発に探索し,露出バイアスを低減できる新しいハイブリッド学習フレームワークを提案する。
このようなフレームワークは、単位粒度の設定を利用し、モデルに依存しない。
具体的には、ユニットスケールのクロスモーダルメモリを維持する固有のリカレント状態を持つユニット変換器(UT)を設計する。
TEACHベンチマークの広範な実験を通じて,提案するフレームワークは,すべての評価指標において,既存の最先端手法よりも優れていることを示す。
全体として,より小さく管理可能なユニットに分割し,ハイブリッドトレーニングフレームワークを活用することで,vldmタスクに取り組むための新たなアプローチを導入しました。
そうすることで、私たちはより柔軟で効果的なマルチモーダルな意思決定ソリューションを提供します。
関連論文リスト
- DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - TDAG: A Multi-Agent Framework based on Dynamic Task Decomposition and
Agent Generation [45.028795422801764]
動的タスク分解・エージェント生成(TDAG)に基づくマルチエージェントフレームワークを提案する。
このフレームワークは複雑なタスクを小さなサブタスクに動的に分解し、それぞれが特定の生成されたサブエージェントに割り当てる。
ItineraryBenchは、さまざまな複雑さのタスク間でのメモリ、計画、ツール使用量のエージェントの能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-02-15T18:27:37Z) - Intrinsic Language-Guided Exploration for Complex Long-Horizon Robotic
Manipulation Tasks [12.27904219271791]
現在の強化学習アルゴリズムは、スパースで複雑な環境で苦労している。
Intrinsically Guided Exploration from Large Language Models (IGE-LLMs) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T11:14:52Z) - Unified Human-Scene Interaction via Prompted Chain-of-Contacts [61.87652569413429]
HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。
本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一型HSIフレームワークUniHSIを提案する。
論文 参考訳(メタデータ) (2023-09-14T17:59:49Z) - Efficient Skill Acquisition for Complex Manipulation Tasks in Obstructed
Environments [18.348489257164356]
本稿では,オブジェクト指向生成モデル(OCGM)を多目的ゴール識別に活用する,効率的なスキル獲得システムを提案する。
OCGMは、新しいシーンでワンショットターゲットオブジェクトの識別と再識別を可能にし、MPは障害物を避けながらロボットを対象オブジェクトに誘導することができる。
論文 参考訳(メタデータ) (2023-03-06T18:49:59Z) - Automatic Goal Generation using Dynamical Distance Learning [5.797847756967884]
強化学習(RL)エージェントは環境と対話することで複雑な逐次意思決定タスクを学習することができる。
エージェントが複雑なタスクを解くために複数の目標を達成する必要があるマルチゴールRLの分野では、サンプリング効率を改善することは特に困難である。
本稿では,動的距離関数(DDF)を用いた自動ゴール生成手法を提案する。
論文 参考訳(メタデータ) (2021-11-07T16:23:56Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。