論文の概要: Image Generation as a Visual Planner for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2512.00532v1
- Date: Sat, 29 Nov 2025 15:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.282118
- Title: Image Generation as a Visual Planner for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのためのビジュアルプランナとしての画像生成
- Authors: Ye Pang,
- Abstract要約: リアルなロボット操作ビデオを生成することは、エンボディエージェントの知覚、計画、行動を統合するための重要なステップである。
本稿では,(1)言語命令と第1フレームを使用するテキスト条件生成と,(2)2次元トラジェクトリオーバーレイと同一初期フレームを使用するトラジェクトリ条件生成とを含む2部構成のフレームワークを提案する。
以上の結果から,予め訓練した画像生成装置は,移動可能な時間的先行を符号化し,最小限の監督下でビデオライクなロボットプランナーとして機能する可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating realistic robotic manipulation videos is an important step toward unifying perception, planning, and action in embodied agents. While existing video diffusion models require large domain-specific datasets and struggle to generalize, recent image generation models trained on language-image corpora exhibit strong compositionality, including the ability to synthesize temporally coherent grid images. This suggests a latent capacity for video-like generation even without explicit temporal modeling. We explore whether such models can serve as visual planners for robots when lightly adapted using LoRA finetuning. We propose a two-part framework that includes: (1) text-conditioned generation, which uses a language instruction and the first frame, and (2) trajectory-conditioned generation, which uses a 2D trajectory overlay and the same initial frame. Experiments on the Jaco Play dataset, Bridge V2, and the RT1 dataset show that both modes produce smooth, coherent robot videos aligned with their respective conditions. Our findings indicate that pretrained image generators encode transferable temporal priors and can function as video-like robotic planners under minimal supervision. Code is released at \href{https://github.com/pangye202264690373/Image-Generation-as-a-Visual-Planner-for-Robotic-Manipulation}{https://github.com/pangye202264690373/Image-Generation-as-a-Visual-Planner-for-Robotic-Manipulation}.
- Abstract(参考訳): リアルなロボット操作ビデオを生成することは、エンボディエージェントの知覚、計画、行動を統合するための重要なステップである。
既存のビデオ拡散モデルは、大きなドメイン固有のデータセットを必要とし、一般化に苦慮するが、最近の言語画像コーパスで訓練された画像生成モデルは、時間的に一貫性のあるグリッドイメージを合成する機能を含む、強い構成性を示す。
これは、明示的な時間的モデリングがなくても、ビデオライクな生成の潜在能力が示唆される。
このようなモデルがLoRAファインタニングを用いて軽量に適応したロボットの視覚的プランナとして機能するかどうかを考察する。
本稿では,(1)言語命令と第1フレームを使用するテキスト条件生成と,(2)2次元トラジェクトリオーバーレイと同一初期フレームを使用するトラジェクトリ条件生成とを含む2部構成のフレームワークを提案する。
Jaco Playデータセット、Bridge V2、RT1データセットの実験では、どちらのモードもそれぞれの条件に沿ってスムーズでコヒーレントなロボットビデオを生成する。
以上の結果から,予め訓練した画像生成装置は,移動可能な時間的先行を符号化し,最小限の監督下でビデオライクなロボットプランナーとして機能する可能性が示唆された。
コードは \href{https://github.com/pangye202264690373/Image-Generation-as-a-Visual-Planner-for-Robotic-Manipulation}{https://github.com/pangye202264690373/Image-Generation-as-a-Visual-Planner-for-Robotic-Manipulation} で公開されている。
関連論文リスト
- Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation [87.91642226587294]
現在の学習に基づく3D再構成手法は、キャプチャーされた実世界のマルチビューデータに頼っている。
本稿では,ビデオ拡散モデルにおける暗黙的な3次元知識を,明示的な3次元ガウススプラッティング(3DGS)表現に蒸留する自己蒸留フレームワークを提案する。
本フレームワークは静的・動的3次元シーン生成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T17:58:01Z) - cVLA: Towards Efficient Camera-Space VLAs [26.781510474119845]
Vision-Language-Action(VLA)モデルは、複雑なロボット操作タスクに取り組むための魅力的なフレームワークを提供する。
2次元画像上での視覚言語モデルの競合性能を活用する新しいVLA手法を提案する。
我々のモデルは軌道方向の経路を予測し、トレーニングとロボットの実施の両方を効果的に行う。
論文 参考訳(メタデータ) (2025-07-02T22:56:41Z) - Geometry-aware 4D Video Generation for Robot Manipulation [28.709339959536106]
そこで本研究では,映像の多視点3次元整合性を実現する4次元映像生成モデルを提案する。
この幾何学的監督により、モデルはシーンの共有3次元表現を学習することができ、新しい視点から将来の映像シーケンスを予測することができる。
既存のベースラインと比較して,本手法は複数のシミュレーションおよび実世界のロボットデータセットに対して,より視覚的に安定かつ空間的に整合した予測を生成する。
論文 参考訳(メタデータ) (2025-07-01T18:01:41Z) - RoboEnvision: A Long-Horizon Video Generation Model for Multi-Task Robot Manipulation [30.252593687028767]
ロボット操作作業のための長距離ビデオ生成の問題に対処する。
本稿では,自己回帰生成の必要性を回避できる新しいパイプラインを提案する。
提案手法は,ビデオ品質と一貫性の2つのベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2025-06-27T08:21:55Z) - Dimension-Reduction Attack! Video Generative Models are Experts on Controllable Image Synthesis [12.160537328404622]
textttDRA-Ctrlはリソース集約型ビデオモデルの再利用に関する新たな洞察を提供する。
textttDRA-Ctrlは、視覚的モダリティにまたがる将来の統一された生成モデルの基礎を築いている。
論文 参考訳(メタデータ) (2025-05-29T10:34:45Z) - Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free
Videos [107.65147103102662]
本研究では、ポーズ制御可能なキャラクタビデオを得るために、データセット(ポーズペアとポーズフリービデオ)と事前訓練されたテキスト・ツー・イメージ(T2I)モデルを利用する。
具体的には、第1段階では、キーポイントと画像のペアのみが制御可能なテキストと画像の生成にのみ使用される。
第2段階では、学習可能な時間的自己アテンションと修正されたクロスフレーム自己アテンションブロックを追加することで、ポーズのないビデオデータセットを介して、上記のネットワークの動きを微調整する。
論文 参考訳(メタデータ) (2023-04-03T17:55:14Z) - Seer: Language Instructed Video Prediction with Latent Diffusion Models [43.708550061909754]
テキスト条件付きビデオ予測(TVP)は,一般的なロボットポリシー学習を促進する上で不可欠な課題である。
時間軸に沿って,事前訓練されたテキスト・ツー・イメージ(T2I)の安定拡散モデルを膨らませることで,サンプルモデルと計算効率のよいtextbfSeerを提案する。
適応設計のアーキテクチャにより、Seerは高忠実でコヒーレントで命令に準拠したビデオフレームを生成することができる。
論文 参考訳(メタデータ) (2023-03-27T03:12:24Z) - Learning Universal Policies via Text-Guided Video Generation [179.6347119101618]
人工知能の目標は、幅広いタスクを解決できるエージェントを構築することである。
テキスト誘導画像合成の最近の進歩は、複雑な新規画像を生成する印象的な能力を持つモデルを生み出している。
このようなツールがより汎用的なエージェントの構築に利用できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-01-31T21:28:13Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。