論文の概要: Sparse Compositional Flow Matching by geometric assembly from motion primitives
- arxiv url: http://arxiv.org/abs/2605.23341v1
- Date: Fri, 22 May 2026 07:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.253275
- Title: Sparse Compositional Flow Matching by geometric assembly from motion primitives
- Title(参考訳): 運動プリミティブからの幾何学的集合によるスパース構成フローマッチング
- Authors: Yan Tang, Yuanbo Tang, Tingyu Cao, Shaolun Huang, Yang Li,
- Abstract要約: ロボットマニピュレータ、水中車両、移動ロボットの実行可能な動作シーケンスなどの身体的軌道は、組込みAIの基本的な出力である。
現代の生成モデルは、しばしばそれらを密度の高いモノリシックな信号生成点として扱い、データの潜在構造をモデル化せずに、複雑な高次元の後方に収まる。
多くの具体化されたタスクは、再利用可能な運動プリミティブの有限レパートリーとして明示できるような反復的な運動断片を共有する。
既存の構成ジェネレータは潜時空間を構成し、サンプル単位と実際の軌跡を関連づけるためにポストホック復号に依存する
- 参考スコア(独自算出の注目度): 15.40404761023639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied trajectories, such as the executable motion sequences of robotic manipulators, underwater vehicles, and mobile robots, are a fundamental output of embodied AI. Modern generative models often treat them as a dense, monolithic signal generated point by point, fitting an intricate high-dimensional posterior while leaving the data's latent structure unmodeled, the same sample inefficiency long identified by the structured generative model literature. We argue that a compositional latent structure is a natural choice: many embodied tasks share recurring motion fragments that can be made explicit as a finite repertoire of reusable motion primitives, and compositional units naturally align with subtask boundaries to support task decomposition. Existing compositional generators, however, compose in a latent space and rely on post-hoc decoding to relate sampled units to actual trajectory segments. We instead compose directly in the physical trajectory space through a flow-matching framework with two coupled designs. Motion-Primitive Dictionary Learning equips each atom with a learnable length mask and binary starting indicators so the atom itself is the primitive, reused verbatim wherever it is placed. Structural Sparse Flow Matching with Geometric Constraints then generates a binary placement matrix using duration-aware tokenization and a differentiable geometric loss that enforces spatial continuity and temporal contiguity where adjacent primitives meet. On Open X-Embodiment and 3DMoTraj, the framework attains state-of-the-art accuracy and reduces the FDE/ADE ratio from 1.8 to 1.07, improving ADE by 19.2% and FDE by 21.0% over the strongest baseline.
- Abstract(参考訳): ロボットマニピュレータ、水中車両、移動ロボットの実行可能な動作シーケンスなどの身体的軌道は、組込みAIの基本出力である。
現代の生成モデルは、しばしばそれらを高密度でモノリシックな信号生成点として扱い、複雑な高次元の後方を固定しながら、データの潜在構造をモデル無しに残し、構造化された生成モデル文献によって長い間認識されてきた同じサンプルの非効率さを保っている。
多くの具体化されたタスクは、再利用可能な運動プリミティブの有限レパートリーとして明示できる動きフラグメントを共有し、構成単位はタスク分解をサポートするためにサブタスク境界と自然に整合する。
しかし、既存の構成生成器は潜時空間を構成し、サンプル単位を実際の軌道セグメントに関連付けるためにポストホック復号に依存する。
代わりに、2つの結合した設計のフローマッチングフレームワークを通じて、物理軌道空間内で直接構成する。
モーション・プリミティブ辞書学習は、各原子に学習可能な長さマスクと二進開始指示器を装備するので、原子自体が任意の場所に配置された原始的で再利用された動詞である。
構造スパースフローマッチングと幾何学的制約とのマッチングは、隣接するプリミティブが交わる空間的連続性と時間的連続性を強制する、時間的トークン化と微分可能な幾何学的損失を用いたバイナリ配置行列を生成する。
Open X-Embodimentと3DMoTrajでは、このフレームワークは最先端の精度を達成し、FDE/ADE比を1.8から1.07に下げ、ADEを19.2%、FDEを21.0%改善する。
関連論文リスト
- Local Spatiotemporal Convolutional Network for Robust Gait Recognition [7.0676119183443395]
歩行認識は、個人を独自の歩行パターンで識別する有望な生体計測技術である。
既存のアプローチは、個々のシルエットフレームから抽出された静的な外観特徴、複雑なシーケンシャルモデルのいずれかに依存している。
本稿では,従来の2次元畳み込みネットワークに時間的情報を抽出する能力を持たせた,構造的にシンプルで高効率なデュアルブランチアーキテクチャLSTCNを提案する。
論文 参考訳(メタデータ) (2026-05-14T08:28:49Z) - Shape-of-You: Fused Gromov-Wasserstein Optimal Transport for Semantic Correspondence in-the-Wild [7.4746628878102195]
Shape-of-Youは意味対応のための教師なし学習フレームワークである。
SPair-71kおよびAP-10kデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-03-12T07:22:03Z) - Structural Action Transformer for 3D Dexterous Manipulation [80.07649565189035]
クロス・エボディメント・スキル・トランスファーは、ハイDoFロボットハンドの課題である。
既存の手法は、しばしば2次元の観測と時間中心の行動表現に依存し、3次元の空間的関係を捉えるのに苦労する。
本稿では、構造中心の視点を導入することで、このパラダイムに挑戦する新しい3Dデクスタラスな操作ポリシーを提案する。
論文 参考訳(メタデータ) (2026-03-04T11:38:12Z) - Inverting Self-Organizing Maps: A Unified Activation-Based Framework [39.146761527401424]
我々は,SOMの活性化パターンを逆転させて,微妙な幾何学的条件下での正確な入力を復元できることを示す。
我々は,MUSIC (Manifold-Aware Unified SOM Inversion and Control) 更新ルールを導入する。
合成ガウス混合系, MNIST と Faces in the Wild を用いたアプローチを検証した。
論文 参考訳(メタデータ) (2026-01-20T11:02:54Z) - StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - IDSplat: Instance-Decomposed 3D Gaussian Splatting for Driving Scenes [25.939318593012484]
動的駆動シーンの再構築は、センサ・リアリスティック・シミュレーションによる自律システム開発に不可欠である。
我々は,動的シーンを明示的なインスタンス分解と学習可能なモーショントラジェクトリで再構成する,自己教師型3次元ガウススティングフレームワークIDSplatを提案する。
本手法は, インスタンスレベルの分解を維持しつつ, 競合する再構成品質を実現し, 再トレーニングを伴わずに, 多様なシーケンスやビュー密度を一般化する。
論文 参考訳(メタデータ) (2025-11-24T15:48:08Z) - SegSplat: Feed-forward Gaussian Splatting and Open-Set Semantic Segmentation [114.57192386025373]
SegSplatは、高速でフィードフォワードな3D再構成とリッチでオープンなセマンティック理解のギャップを埋めるために設計された、新しいフレームワークである。
この研究は、意味的に認識された3D環境の実践的でオンザフライな生成に向けた重要なステップである。
論文 参考訳(メタデータ) (2025-11-23T10:26:38Z) - SVRecon: Sparse Voxel Rasterization for Surface Reconstruction [60.92372415355283]
我々は最近提案されたスパースボキセル化パラダイムをSVReconの統合により高忠実度表面再構成の課題に拡張する。
本手法は, 常に高速な収束を保ちながら, 強い復元精度を実現する。
論文 参考訳(メタデータ) (2025-11-21T16:32:01Z) - Bidirectional Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression [97.66080040613726]
特徴空間における動きを暗黙的にモデル化する双方向特徴整合運動変換(Bi-FMT)フレームワークを提案する。
Bi-FMTは、時間的に一貫した潜在表現を生成するために、過去と将来の両方のフレームで機能を調整する。
圧縮効率とランタイムの両方において, Bi-FMT が D-DPCC と AdaDPCC を上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-18T03:51:06Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。