Fugu-MT 論文翻訳(概要): Joint Flow Trajectory Optimization For Feasible Robot Motion Generation from Video Demonstrations

論文の概要: Joint Flow Trajectory Optimization For Feasible Robot Motion Generation from Video Demonstrations

arxiv url: http://arxiv.org/abs/2509.20703v1
Date: Thu, 25 Sep 2025 03:11:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-26 20:58:12.675361
Title: Joint Flow Trajectory Optimization For Feasible Robot Motion Generation from Video Demonstrations
Title（参考訳）: ビデオデモによるロボット運動生成のための関節流れの軌道最適化
Authors: Xiaoxiang Dong, Matthew Johnson-Roberson, Weiming Zhi,
Abstract要約: 本稿では,LfD(Learning-from-Demonstration)パラダイムに基づくポーズ生成とオブジェクトの軌道模倣を把握するためのフレームワークを提案する。人間の手の動きを直接模倣するのではなく,実演を対象中心のガイドとして扱う。我々は,様々な実世界の操作タスクにおけるシミュレーションと実世界の実験の両方において,我々のアプローチを検証する。
参考スコア（独自算出の注目度）: 8.133207162076877
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning from human video demonstrations offers a scalable alternative to teleoperation or kinesthetic teaching, but poses challenges for robot manipulators due to embodiment differences and joint feasibility constraints. We address this problem by proposing the Joint Flow Trajectory Optimization (JFTO) framework for grasp pose generation and object trajectory imitation under the video-based Learning-from-Demonstration (LfD) paradigm. Rather than directly imitating human hand motions, our method treats demonstrations as object-centric guides, balancing three objectives: (i) selecting a feasible grasp pose, (ii) generating object trajectories consistent with demonstrated motions, and (iii) ensuring collision-free execution within robot kinematics. To capture the multimodal nature of demonstrations, we extend flow matching to $\SE(3)$ for probabilistic modeling of object trajectories, enabling density-aware imitation that avoids mode collapse. The resulting optimization integrates grasp similarity, trajectory likelihood, and collision penalties into a unified differentiable objective. We validate our approach in both simulation and real-world experiments across diverse real-world manipulation tasks.
Abstract（参考訳）: 人間のビデオデモから学ぶことは、遠隔操作や審美教育に代わるスケーラブルな代替手段を提供する。本稿では,映像に基づくLearning-from-Demonstration(LfD)パラダイムの下で,ポーズ生成とオブジェクトの軌道模倣を把握するためのJFTO(Joint Flow Trajectory Optimization)フレームワークを提案する。人間の手の動きを直接模倣するのではなく、3つの目的のバランスをとりながら、実演を対象中心のガイドとして扱う。一実現可能な握りのポーズを選択すること。二実演運動と整合した物体軌道の生成、及び三ロボットキネマティクスにおける衝突のない実行を確保すること。実演のマルチモーダルな性質を捉えるため,物体軌道の確率的モデリングのために,フローマッチングを$\SE(3)$に拡張し,モード崩壊を回避する密度認識模倣を可能にする。結果として得られる最適化は、類似性、軌道可能性、衝突のペナルティを統一された微分可能な目的に統合する。我々は,様々な実世界の操作タスクにおけるシミュレーションと実世界の実験の両方において,我々のアプローチを検証する。

関連論文リスト

WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance [17.295532380360992]
近年の映像拡散モデルでは, 空間知能タスクの潜在的な可能性を示す。 3つの密結合モジュールからなるトレーニング不要な推論時間フレームワークであるWorldForgeを提案する。本研究は,空間的知性に先立って生成的先行性を活用するための新たな視点を提供する,制御可能なビデオ合成のための新しいプラグイン・アンド・プレイパラダイムを導入する。
論文参考訳（メタデータ） (2025-09-18T16:40:47Z)
Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文参考訳（メタデータ） (2025-06-02T17:57:06Z)
SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。 SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。 SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文参考訳（メタデータ） (2025-03-28T20:53:20Z)
Conditional Neural Expert Processes for Learning Movement Primitives from Demonstration [1.9336815376402723]
条件付きニューラルネットワークプロセス(CNEP)は、異なるモードから異なる専門家ネットワークにデモを割り当てることを学ぶ。 CNEPは、軌道がどのモードに属するかの監督を必要としない。本システムは,オンラインコンディショニング機構を用いて,環境変化へのオンザフライ適応が可能なシステムである。
論文参考訳（メタデータ） (2024-02-13T12:52:02Z)
Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic Models [71.64318025625833]
本稿では,対象物と相互作用する人間の3次元運動を生成するための新しいアプローチを提案する。私たちのフレームワークはまず一連のマイルストーンを生成し、それに沿って動きを合成します。 NSM, COUCH, SAMPデータセットを用いた実験では, 従来の手法よりも品質と多様性に大きな差があることが示されている。
論文参考訳（メタデータ） (2023-10-03T17:50:23Z)
Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文参考訳（メタデータ） (2023-06-01T07:48:34Z)
SE(3)-DiffusionFields: Learning smooth cost functions for joint grasp and motion optimization through diffusion [34.25379651790627]
本研究では,データ駆動型SE(3)コスト関数を拡散モデルとして学習する手法を提案する。我々は6DoFグルーピングのためのSE(3)拡散モデルの学習に重点を置いており、関節グルーピングと運動最適化のための新しい枠組みを生み出している。
論文参考訳（メタデータ） (2022-09-08T14:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。