Fugu-MT 論文翻訳(概要): SWEET: Sparse World Modeling with Image Editing for Embodied Task Execution

論文の概要: SWEET: Sparse World Modeling with Image Editing for Embodied Task Execution

arxiv url: http://arxiv.org/abs/2605.19319v1
Date: Tue, 19 May 2026 03:54:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-20 15:03:09.107517
Title: SWEET: Sparse World Modeling with Image Editing for Embodied Task Execution
Title（参考訳）: SWEET: 身体的タスク実行のための画像編集によるスパースワールドモデリング
Authors: Yiren Song, Yihan Wang, Xiyao Deng, Zhuoran Yan, Mike Zheng Shou,
Abstract要約: 画像編集モデルがロボット操作のための疎視世界モデルとして機能するかどうかを考察する。本稿では,一括予測型視覚計画フレームワークSWEETを提案する。 DROIDとRoboMimicの実験では、SWEETは見知らぬシーンの予測を改善している。
参考スコア（独自算出の注目度）: 61.612676324369595
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Visual prediction has emerged as a promising paradigm for embodied control, where future observations are generated and then translated into actions. However, dense video generation is computationally expensive and often unnecessary for many manipulation tasks, whose progress can be summarized by a small number of task-relevant visual states. In this work, we study whether image editing models can serve as sparse visual world models for robot manipulation by predicting task-level future states without dense video rollout. We first conduct a controlled comparison between the video generation model Wan2.2 and the image editing model FLUX-Kontext under the same robotic data setting, and find that image editing produces more reliable task-level keyframes with better visual fidelity and substantially lower inference cost. Motivated by this observation, we propose SWEET, a one-shot sparse visual planning framework that progressively generates a sequence of task-relevant manipulation keyframes through successive image editing, conditioned on language instructions and optional arrow-based spatial guidance. A goal-conditioned diffusion action predictor then converts adjacent imagined keyframes into executable action chunks. To reduce the mismatch between real and edited visual subgoals, we further introduce a mixed-training strategy with filtered edited targets. Experiments on DROID and RoboMimic show that SWEET improves keyframe prediction across seen and unseen scenes and enables a full pipeline from sequential keyframe planning to executable robot actions, suggesting that image editing is a promising and underexplored direction for embodied visual prediction.
Abstract（参考訳）: 視覚予測は、将来の観察結果が生成され、行動へと変換される、身体制御のための有望なパラダイムとして登場した。しかし、高密度ビデオ生成は計算コストが高く、多くの操作タスクでは不要であり、その進歩は少数のタスク関連視覚状態によって要約できる。本研究では,映像編集モデルが高密度ビデオロールアウトなしでタスクレベルの将来の状態を予測し,ロボット操作のための疎視的世界モデルとして機能するかどうかを検討する。まず,映像生成モデルWan2.2と画像編集モデルFLUX-Kontextとの制御された比較を行い,画像編集によりより信頼性の高いタスクレベルのキーフレームが生成され,視覚的忠実度が向上し,推論コストが大幅に低減されることを確認した。本研究の目的は,逐次的な画像編集,言語命令の条件付,矢印による空間誘導などを通じて,タスク関連操作キーフレームのシーケンスを段階的に生成する,一発のスパースな視覚計画フレームワークであるSWEETを提案することである。ゴール条件付き拡散アクション予測器は、隣接する想像されたキーフレームを実行可能なアクションチャンクに変換する。さらに、実際の視覚サブゴールと編集された視覚サブゴールのミスマッチを低減するために、フィルタリングされたターゲットを用いた混合学習戦略を導入する。 DROIDとRoboMimicの実験では、SWEETは、目に見えるシーンと見えないシーンのキーフレーム予測を改善し、シーケンシャルなキーフレーム計画から実行可能なロボットアクションまでの完全なパイプラインを可能にする。

関連論文リスト

From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation [88.39072412680633]
将来の映像を実行可能な表現に変換する制御指向インタフェースであるMoLAを提案する。我々は,シミュレーションベンチマークと実世界のロボット操作タスクに対するアプローチを評価した。
論文参考訳（メタデータ） (2026-05-12T14:15:16Z)
IMAGAgent: Orchestrating Multi-Turn Image Editing via Constraint-Aware Planning and Reflection [40.21337735524356]
IMAGAgentは、"plan-execute-reflect"クローズドループメカニズムに基づいたマルチターン画像編集エージェントフレームワークである。命令解析、ツールスケジューリング、および統一パイプライン内の適応補正の深いシナジーを実現する。構築した textbfMTEditBench と MagicBrush データセットによる実験により,IMAGAgent が既存の手法よりもはるかに優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2026-02-12T02:37:38Z)
Envision: Embodied Visual Planning via Goal-Imagery Video Diffusion [61.63215708592008]
Embodied Visual Planningは、シーンが望ましい目標に向かってどのように進化するかを想像することで、操作タスクを可能にすることを目的としている。ビデオ拡散モデルは、このような視覚的想像力の有望な基盤を提供する。エージェントの視覚的計画を行う拡散型フレームワークであるEnvisionを提案する。
論文参考訳（メタデータ） (2025-12-27T15:46:41Z)
Image Generation as a Visual Planner for Robotic Manipulation [0.0]
リアルなロボット操作ビデオを生成することは、エンボディエージェントの知覚、計画、行動を統合するための重要なステップである。本稿では,(1)言語命令と第1フレームを使用するテキスト条件生成と,(2)2次元トラジェクトリオーバーレイと同一初期フレームを使用するトラジェクトリ条件生成とを含む2部構成のフレームワークを提案する。以上の結果から,予め訓練した画像生成装置は,移動可能な時間的先行を符号化し,最小限の監督下でビデオライクなロボットプランナーとして機能する可能性が示唆された。
論文参考訳（メタデータ） (2025-11-29T15:54:16Z)
Show Me: Unifying Instructional Image and Video Generation with Diffusion Models [16.324312147741495]
画像の操作と映像の予測を可能にする統一的なフレームワークを提案する。構造的忠実度と時間的コヒーレンスを改善するために,構造的および運動的整合性報酬を導入する。多様なベンチマーク実験により,本手法は指導画像と映像生成の両方において,専門家モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2025-11-21T23:24:28Z)
PoseDiff: A Unified Diffusion Model Bridging Robot Pose Estimation and Video-to-Action Control [67.17998939712326]
本稿では,ロボットの状態推定と制御を単一のフレームワーク内で統一する条件拡散モデルPoseDiffを提案する。中心となるPoseDiffは、生の視覚を3Dキーポイントや関節角などの構造化されたロボットの状態にマッピングする。この基盤の上に構築されたPoseDiffは、ビデオからアクションへの逆ダイナミクスに自然に拡張する。
論文参考訳（メタデータ） (2025-09-29T10:55:48Z)
VeriGraph: Scene Graphs for Execution Verifiable Robot Planning [33.8868315479384]
本稿では,ロボット計画のための視覚言語モデル(VLM)を統合するフレームワークであるVeriGraphを提案する。 VeriGraphはシーングラフを中間表現として使用し、キーオブジェクトと空間関係をキャプチャして、計画検証と改善を改善する。提案手法は,多様な操作シナリオにおけるタスク完了率を大幅に向上させ,言語ベースタスクでは58%,画像ベースタスクでは30%,ベースラインメソッドでは58%向上させる。
論文参考訳（メタデータ） (2024-11-15T18:59:51Z)
Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文参考訳（メタデータ） (2022-10-06T12:43:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。