論文の概要: FreeAction: Training-Free Techniques for Enhanced Fidelity of Trajectory-to-Video Generation
- arxiv url: http://arxiv.org/abs/2509.24241v1
- Date: Mon, 29 Sep 2025 03:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.724417
- Title: FreeAction: Training-Free Techniques for Enhanced Fidelity of Trajectory-to-Video Generation
- Title(参考訳): FreeAction: トラジェクトリ・ビデオ生成の忠実度向上のためのトレーニングフリー技術
- Authors: Seungwook Kim, Seunghyeon Lee, Minsu Cho,
- Abstract要約: 本稿では,ロボットビデオ生成における明示的な動作パラメータを完全に活用する2つのトレーニング不要な推論時間手法を提案する。
第一に、アクションスケールの分類器フリーガイダンスは、動作の大きさに比例して誘導強度を動的に調整し、運動強度に対する制御性を高める。
第二に、アクションスケールノイズトランケーションは、初期サンプルノイズの分布を調整し、所望の運動力学とよりよく一致させる。
- 参考スコア(独自算出の注目度): 50.39748673817223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating realistic robot videos from explicit action trajectories is a critical step toward building effective world models and robotics foundation models. We introduce two training-free, inference-time techniques that fully exploit explicit action parameters in diffusion-based robot video generation. Instead of treating action vectors as passive conditioning signals, our methods actively incorporate them to guide both the classifier-free guidance process and the initialization of Gaussian latents. First, action-scaled classifier-free guidance dynamically modulates guidance strength in proportion to action magnitude, enhancing controllability over motion intensity. Second, action-scaled noise truncation adjusts the distribution of initially sampled noise to better align with the desired motion dynamics. Experiments on real robot manipulation datasets demonstrate that these techniques significantly improve action coherence and visual quality across diverse robot environments.
- Abstract(参考訳): 明示的な行動軌跡からリアルなロボットビデオを生成することは、効果的な世界モデルとロボット基礎モデルを構築するための重要なステップである。
本研究では,拡散型ロボットビデオ生成において,明示的な動作パラメータをフル活用する2つのトレーニング不要推論時間手法を提案する。
動作ベクトルを受動的条件付け信号として扱う代わりに,この手法を積極的に取り入れて,分類器不要誘導法とガウス潜伏剤の初期化を導出する。
第一に、アクションスケールの分類器フリーガイダンスは、動作の大きさに比例して誘導強度を動的に調整し、運動強度に対する制御性を高める。
第二に、アクションスケールノイズトランケーションは、初期サンプルノイズの分布を調整し、所望の運動力学とよりよく一致させる。
実際のロボット操作データセットの実験により、これらの技術は多様なロボット環境におけるアクションコヒーレンスと視覚的品質を大幅に改善することが示された。
関連論文リスト
- Pixel Motion Diffusion is What We Need for Robot Control [38.925028601732116]
DAWNは言語条件のロボット操作のための統合拡散ベースのフレームワークである。
高レベルの動き意図と低レベルのロボット動作を、構造化されたピクセルの動き表現を介してブリッジする。
DAWNは、挑戦的なCALVINベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-09-26T17:59:59Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - AMPLIFY: Actionless Motion Priors for Robot Learning from Videos [29.799207502031496]
AMPLIFYは,大規模ビデオデータを活用する新しいフレームワークである。
我々は、豊富なアクションフリービデオでフォワードダイナミクスモデルを訓練し、限られたアクションラベル付き例で逆ダイナミクスモデルを訓練する。
下流の政策学習において、我々のダイナミクス予測は、低データのレシエーションにおいて1.2-2.2倍の改善を実現し、アクションフリーなヒューマンビデオから学ぶことで平均1.4倍の改善を実現し、非配布アクションデータからLIBEROタスクへの第1次一般化を可能にした。
論文 参考訳(メタデータ) (2025-06-17T05:31:42Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。
連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。
シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T13:28:52Z) - Human-Robot Skill Transfer with Enhanced Compliance via Dynamic Movement
Primitives [1.7901837062462316]
本研究では,動的運動プリミティブ(Dynamic Movement Primitives)フレームワークにおいて,人間の実演から動的特徴を抽出し,パラメータを自動チューニングする体系的手法を提案する。
本手法は,LfDとRLの両方に追従するロボット軌道を再現するために,人間の動的特徴を抽出するための実際のロボット装置に実装した。
論文 参考訳(メタデータ) (2023-04-12T08:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。