論文の概要: GROOT-2: Weakly Supervised Multi-Modal Instruction Following Agents
- arxiv url: http://arxiv.org/abs/2412.10410v1
- Date: Sat, 07 Dec 2024 05:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-22 08:06:05.528591
- Title: GROOT-2: Weakly Supervised Multi-Modal Instruction Following Agents
- Title(参考訳): GROOT-2: エージェントによるマルチモーダルインストラクションの弱化
- Authors: Shaofei Cai, Bowei Zhang, Zihao Wang, Haowei Lin, Xiaojian Ma, Anji Liu, Yitao Liang,
- Abstract要約: GROOT-2は、弱い監督と潜在変数モデルを組み合わせた新しいアプローチを用いて訓練されたマルチモーダルエージェントである。
GROOT-2の有効性は、ビデオゲームからロボット操作まで、四つの異なる環境で検証されている。
- 参考スコア(独自算出の注目度): 25.195426389757355
- License:
- Abstract: Developing agents that can follow multimodal instructions remains a fundamental challenge in robotics and AI. Although large-scale pre-training on unlabeled datasets (no language instruction) has enabled agents to learn diverse behaviors, these agents often struggle with following instructions. While augmenting the dataset with instruction labels can mitigate this issue, acquiring such high-quality annotations at scale is impractical. To address this issue, we frame the problem as a semi-supervised learning task and introduce GROOT-2, a multimodal instructable agent trained using a novel approach that combines weak supervision with latent variable models. Our method consists of two key components: constrained self-imitating, which utilizes large amounts of unlabeled demonstrations to enable the policy to learn diverse behaviors, and human intention alignment, which uses a smaller set of labeled demonstrations to ensure the latent space reflects human intentions. GROOT-2's effectiveness is validated across four diverse environments, ranging from video games to robotic manipulation, demonstrating its robust multimodal instruction-following capabilities.
- Abstract(参考訳): マルチモーダルな指示に従うエージェントを開発することは、ロボティクスとAIの基本的な課題である。
ラベルなしデータセット(言語命令なし)での大規模な事前トレーニングにより、エージェントは多様な振る舞いを学ぶことができるが、これらのエージェントは後続の命令に苦慮することが多い。
データセットを命令ラベルで拡張することはこの問題を軽減することができるが、そのような高品質なアノテーションを大規模に取得することは現実的ではない。
この問題に対処するため,我々は,半教師付き学習課題として,弱監督と潜在変数モデルを組み合わせた新しいアプローチを用いて訓練されたマルチモーダル・インストラクタブルエージェントであるGROOT-2を導入する。
提案手法は,多種多様な行動の学習を可能にするために多量のラベル付きデモンストレーションを利用する制約付き自己模倣と,潜在空間が人間の意図を反映するようにラベル付きデモの小さなセットを使用する人間の意図アライメントの2つの重要な構成要素から構成される。
GROOT-2の有効性は、ビデオゲームからロボット操作まで、その堅牢なマルチモーダル命令追従能力を示す4つの様々な環境で検証されている。
関連論文リスト
- LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Large Language Models for Orchestrating Bimanual Robots [19.60907949776435]
本稿では,Language-based Bimanual Orchestration (LABOR)を提案する。
NICOLヒューマノイドロボットを用いた2種類の長距離作業のシミュレーション実験により,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-02T15:08:35Z) - Multi-task real-robot data with gaze attention for dual-arm fine manipulation [4.717749411286867]
本稿では,2つのアームタスクや細かな操作を必要とするタスクを含む多種多様なオブジェクト操作のデータセットを紹介する。
224k エピソード (150時間, 1,104 言語命令) のデータセットを作成した。
このデータセットには、視覚的注意信号とデュアルアクションラベル、アクションを堅牢な到達軌道とオブジェクトとの正確な相互作用に分離する信号、堅牢で正確なオブジェクト操作を実現するための言語命令が含まれる。
論文 参考訳(メタデータ) (2024-01-15T11:20:34Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - CLAS: Coordinating Multi-Robot Manipulation with Central Latent Action
Spaces [9.578169216444813]
本稿では,異なるエージェント間で共有される学習された潜在行動空間を通じて,マルチロボット操作を協調する手法を提案する。
シミュレーションされたマルチロボット操作タスクにおいて本手法を検証し,サンプル効率と学習性能の観点から,従来のベースラインよりも改善したことを示す。
論文 参考訳(メタデータ) (2022-11-28T23:20:47Z) - Using Both Demonstrations and Language Instructions to Efficiently Learn
Robotic Tasks [21.65346551790888]
DeL-TaCoは、視覚的なデモンストレーションと言語指導という2つのコンポーネントからなるタスク埋め込みにロボットポリシーを条件付ける方法である。
我々の知る限り、デモと言語埋め込みの両方にマルチタスクロボット操作ポリシーを同時に条件付けすることで、モダリティのみの条件付けよりもサンプル効率と一般化が向上することを示す最初の研究である。
論文 参考訳(メタデータ) (2022-10-10T08:06:58Z) - Learning Neuro-Symbolic Skills for Bilevel Planning [63.388694268198655]
意思決定は、連続したオブジェクト中心の状態、継続的なアクション、長い地平線、まばらなフィードバックを持つロボット環境では難しい。
タスク・アンド・モーション・プランニング(TAMP)のような階層的なアプローチは、意思決定を2つ以上の抽象レベルに分解することでこれらの課題に対処する。
我々の主な貢献は、オペレーターとサンプルラーを組み合わせたパラメータ化警察の学習方法である。
論文 参考訳(メタデータ) (2022-06-21T19:01:19Z) - Learning Multi-Arm Manipulation Through Collaborative Teleoperation [63.35924708783826]
模倣学習(il)はロボットに操作タスクを実行するための強力なパラダイムである。
多くの現実世界のタスクは、重い物体を持ち上げる、デスクを組み立てるなど、複数のアームを必要とする。
複数のリモートユーザが同時にロボットアームを遠隔操作できるマルチユーザデータ収集プラットフォームであるMulti-Arm RoboTurk(MART)を紹介した。
論文 参考訳(メタデータ) (2020-12-12T05:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。