論文の概要: A Unified Transformer-Based Framework with Pretraining For Whole Body Grasping Motion Generation
- arxiv url: http://arxiv.org/abs/2507.00676v1
- Date: Tue, 01 Jul 2025 11:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.60224
- Title: A Unified Transformer-Based Framework with Pretraining For Whole Body Grasping Motion Generation
- Title(参考訳): 全体グラスピング動作生成のための一元化トランスフォーマーベースフレームワーク
- Authors: Edward Effendy, Kuan-Wei Tseng, Rei Kawakami,
- Abstract要約: 全身把握のためのトランスフォーマーベースの新しいフレームワークを提案する。
ポーズの生成と動きの埋め合わせに対処し、現実的で安定したオブジェクトの相互作用を可能にする。
本手法は,コヒーレンス,安定性,視覚的リアリズムの観点から,最先端のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 6.465569743109499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accepted in the ICIP 2025 We present a novel transformer-based framework for whole-body grasping that addresses both pose generation and motion infilling, enabling realistic and stable object interactions. Our pipeline comprises three stages: Grasp Pose Generation for full-body grasp generation, Temporal Infilling for smooth motion continuity, and a LiftUp Transformer that refines downsampled joints back to high-resolution markers. To overcome the scarcity of hand-object interaction data, we introduce a data-efficient Generalized Pretraining stage on large, diverse motion datasets, yielding robust spatio-temporal representations transferable to grasping tasks. Experiments on the GRAB dataset show that our method outperforms state-of-the-art baselines in terms of coherence, stability, and visual realism. The modular design also supports easy adaptation to other human-motion applications.
- Abstract(参考訳): ICIP 2025では、ポーズ生成と動きの埋め合わせの両方に対処し、現実的で安定した物体の相互作用を可能にする、全身把握のためのトランスフォーマーベースの新しいフレームワークを提案する。
パイプラインは, フルボディグリップ生成のためのGrasp Pose Generation, スムーズな運動連続性のためのTemporal Infilling, および高分解能マーカーへ逆戻りするLftUp Transformerの3段階からなる。
ハンドオブジェクト間相互作用データの不足を克服するため,多種多様な動作データセット上にデータ効率のよい一般化事前学習ステージを導入し,タスクの把握に寄与する頑健な時空間表現を実現する。
GRABデータセットを用いた実験により,本手法はコヒーレンス,安定性,視覚的リアリズムの観点から,最先端のベースラインよりも優れていた。
モジュラーデザインは、他のヒューマンモーションアプリケーションへの適応もサポートしている。
関連論文リスト
- SILK: Smooth InterpoLation frameworK for motion in-betweening A Simplified Computational Approach [1.7812314225208412]
動きの切り替えはアニメーターにとって重要なツールであり、ポーズごとにポーズレベルの詳細を制御できる。
最近の動きの機械学習ソリューションは、複雑なモデル、スケルトン対応アーキテクチャ、あるいは複数のモジュールとトレーニングステップを必要とする。
本研究では,トランスフォーマーをベースとした単一エンコーダを用いて,現実的な動きを合成するシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T19:26:27Z) - Absolute Coordinates Make Motion Generation Easy [8.153961351540834]
最先端のテキスト・トゥ・モーション生成モデルは、HumanML3Dによって普及したキネマティック・アウェア、局所相対運動表現に依存している。
本稿では,大域空間における絶対的共同座標という,テキスト・トゥ・モーション生成の大幅な単純化と長期化の代替案を提案する。
論文 参考訳(メタデータ) (2025-05-26T00:36:00Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Motion-Aware Generative Frame Interpolation [23.380470636851022]
フローベースのフレーム法は、推定中間フローを通しての運動安定性を保証するが、複雑な動き領域で深刻なアーティファクトを導入することが多い。
大規模な事前学習ビデオ生成モデルによって強化された最近の生成的アプローチは、複雑なシーンの処理において有望であることを示している。
本研究では、中間フロー誘導と生成能力を相乗化して忠実度を高める動き認識生成フレーム(MoG)を提案する。
論文 参考訳(メタデータ) (2025-01-07T11:03:43Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Combo: Co-speech holistic 3D human motion generation and efficient customizable adaptation in harmony [55.26315526382004]
共同音声合成のための新しいフレームワークComboを提案する。
特に、興味の生成モデルにおけるマルチインプット・マルチプル・アウトプットの性質として、基本的な課題があげられる。
コンボは高品質な動きを生み出すのに非常に効果的であるが、アイデンティティや感情の伝達にも効果的である。
論文 参考訳(メタデータ) (2024-08-18T07:48:49Z) - Realistic Full-Body Tracking from Sparse Observations via Joint-Level
Modeling [13.284947022380404]
頭部と手の3つの追跡信号だけで、正確でスムーズな全身運動を得ることができる2段階のフレームワークを提案する。
本フレームワークは,第1段階の関節レベル特徴を明示的にモデル化し,第2段階の関節レベル相関を捉えるために,空間的および時間的トランスフォーマーブロックの交互化に時間的トークンとして利用する。
AMASSモーションデータセットと実捕集データに関する広範な実験により,提案手法は既存の手法と比較して,より正確で滑らかな動きを実現することができることを示す。
論文 参考訳(メタデータ) (2023-08-17T08:27:55Z) - Blur Interpolation Transformer for Real-World Motion from Blur [52.10523711510876]
本稿では, ボケの時間的相関を解き明かすために, 符号化されたブラー変換器(BiT)を提案する。
マルチスケール残留スウィン変圧器ブロックに基づいて、両端の時間的監督と時間対称なアンサンブル戦略を導入する。
さらに,1対1のぼやけたビデオペアの最初の実世界のデータセットを収集するハイブリッドカメラシステムを設計する。
論文 参考訳(メタデータ) (2022-11-21T13:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。