論文の概要: EL3DD: Extended Latent 3D Diffusion for Language Conditioned Multitask Manipulation
- arxiv url: http://arxiv.org/abs/2511.13312v1
- Date: Mon, 17 Nov 2025 12:47:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.209966
- Title: EL3DD: Extended Latent 3D Diffusion for Language Conditioned Multitask Manipulation
- Title(参考訳): EL3DD:言語条件付きマルチタスク操作のための拡張潜在3次元拡散
- Authors: Jonas Bode, Raphael Memmesheimer, Sven Behnke,
- Abstract要約: 本稿では,ロボットの正確な軌道を生成するために,ビジュモータポリシフレームワーク内での拡散モデルの有用性を活用することを目的とする。
トレーニング中に参照デモを利用することで、ロボットの即時環境内でテキストコマンドによって指定された操作タスクを実行することができる。
- 参考スコア(独自算出の注目度): 16.468655011980843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acting in human environments is a crucial capability for general-purpose robots, necessitating a robust understanding of natural language and its application to physical tasks. This paper seeks to harness the capabilities of diffusion models within a visuomotor policy framework that merges visual and textual inputs to generate precise robotic trajectories. By employing reference demonstrations during training, the model learns to execute manipulation tasks specified through textual commands within the robot's immediate environment. The proposed research aims to extend an existing model by leveraging improved embeddings, and adapting techniques from diffusion models for image generation. We evaluate our methods on the CALVIN dataset, proving enhanced performance on various manipulation tasks and an increased long-horizon success rate when multiple tasks are executed in sequence. Our approach reinforces the usefulness of diffusion models and contributes towards general multitask manipulation.
- Abstract(参考訳): 人間の環境での行動は汎用ロボットにとって重要な能力であり、自然言語の堅牢な理解と物理的なタスクへの応用が必要である。
本稿では,視覚とテキストの入力を融合して正確なロボット軌道を生成するビジュモータポリシーフレームワーク内での拡散モデルの有用性を活用することを目的とする。
トレーニング中に参照デモを利用することで、ロボットの即時環境内でテキストコマンドによって指定された操作タスクを実行することができる。
本研究は,改良された埋め込みを利用して既存モデルを拡張し,画像生成のための拡散モデルからの手法を適用することを目的としている。
我々は、CALVINデータセット上での手法の評価を行い、様々な操作タスクの性能向上と、複数のタスクをシーケンスで実行した場合の長期成功率の向上を証明した。
提案手法は拡散モデルの有用性を強化し,汎用マルチタスク操作に寄与する。
関連論文リスト
- Exploring Conditions for Diffusion models in Robotic Control [70.27711404291573]
我々は,ロボット制御のためのタスク適応型視覚表現を得るために,事前学習したテキスト・画像拡散モデルを活用することを検討する。
テキスト条件をナビゲート的に適用すると、制御タスクにおいて最小あるいは負の利得が得られることがわかった。
本稿では,制御環境に適応する学習可能なタスクプロンプトと,細粒度でフレーム固有の細部をキャプチャする視覚プロンプトを提案する。
論文 参考訳(メタデータ) (2025-10-17T10:24:14Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。
本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。
我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文 参考訳(メタデータ) (2024-04-02T13:25:16Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Masked Diffusion with Task-awareness for Procedure Planning in
Instructional Videos [16.93979476655776]
指導ビデオにおけるプロシージャ計画における重要な課題は、さまざまなアクションタイプからなる大きな決定空間をどのように扱うかである。
マスク付き拡散モデルとして,シンプルで効果的な拡張法を提案する。
我々は,事前学習された視覚言語モデルに人間の行動に焦点を当てるよう促すことで,テキストの埋め込みを生成する共同視覚テキスト埋め込みを学習する。
論文 参考訳(メタデータ) (2023-09-14T03:25:37Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。