論文の概要: VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models
- arxiv url: http://arxiv.org/abs/2508.12081v1
- Date: Sat, 16 Aug 2025 15:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.554465
- Title: VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models
- Title(参考訳): VimoRAG:モーション言語モデルのためのビデオベース検索型3次元モーション生成
- Authors: Haidong Xu, Guangwei Xu, Zhedong Zheng, Xiatian Zhu, Wei Ji, Xiangtai Li, Ruijie Guo, Meishan Zhang, Min zhang, Hao Fei,
- Abstract要約: VimoRAGは、動画に基づく動き大言語モデル(LLM)のための動き生成フレームワークである。
人間のポーズやアクションを識別する効果的な動き中心ビデオ検索モデルを開発した。
VimoRAG はテキストのみの入力に制約された動作 LLM の性能を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 91.4035015203636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces VimoRAG, a novel video-based retrieval-augmented motion generation framework for motion large language models (LLMs). As motion LLMs face severe out-of-domain/out-of-vocabulary issues due to limited annotated data, VimoRAG leverages large-scale in-the-wild video databases to enhance 3D motion generation by retrieving relevant 2D human motion signals. While video-based motion RAG is nontrivial, we address two key bottlenecks: (1) developing an effective motion-centered video retrieval model that distinguishes human poses and actions, and (2) mitigating the issue of error propagation caused by suboptimal retrieval results. We design the Gemini Motion Video Retriever mechanism and the Motion-centric Dual-alignment DPO Trainer, enabling effective retrieval and generation processes. Experimental results show that VimoRAG significantly boosts the performance of motion LLMs constrained to text-only input.
- Abstract(参考訳): 本稿では,動き大言語モデル(LLM)のための新しいビデオベース検索拡張モーション生成フレームワークであるVimoRAGを紹介する。
動き LLM は、限られたアノテートデータによって、ドメイン外/語彙外問題に深刻な問題に直面しているため、VimoRAG は大規模な動画データベースを活用して、関連する2次元モーション信号を取得することで3Dモーション生成を強化する。
映像に基づく動き RAG は自明なものではないが,(1) 人間のポーズや動作を識別する効果的な動き中心ビデオ検索モデルの開発,(2) 最適下界検索結果による誤り伝播の問題を緩和する2つの主要なボトルネックに対処する。
我々は、ジェミニモーションビデオレトリバー機構とモーション中心のデュアルアライメントDPOトレーナーを設計し、効率的な検索と生成を可能にする。
実験結果から,VimoRAGはテキストのみの入力に制約された動きLLMの性能を大幅に向上させることがわかった。
関連論文リスト
- M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.48046909056468]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - Exploring Vision Transformers for 3D Human Motion-Language Models with Motion Patches [12.221087476416056]
動き系列の新しい表現である「動きパッチ」を導入し、移動学習を通して視覚変換器(ViT)をモーションエンコーダとして用いることを提案する。
これらの動きパッチは、運動配列に基づく骨格関節の分割と分類によって作成され、様々な骨格構造に対して堅牢である。
2次元画像データを用いたトレーニングにより得られたViTの事前学習による伝達学習により,動作解析の性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-05-08T02:42:27Z) - Learning Human Motion from Monocular Videos via Cross-Modal Manifold Alignment [45.74813582690906]
2次元入力から人間の3D動作を学ぶことは、コンピュータビジョンとコンピュータグラフィックスの領域における基本的な課題である。
本稿では、モーダルなラテント特徴空間アライメントにより、動きの先行値を活用するビデオ・トゥ・モーション・ジェネレータ(VTM)を提案する。
VTMでは、モノクロビデオから3Dの人間の動きを再構築する、最先端のパフォーマンスが紹介されている。
論文 参考訳(メタデータ) (2024-04-15T06:38:09Z) - Motion Guided 3D Pose Estimation from Videos [81.14443206968444]
本研究では,2次元ポーズから1次元の人物ポーズ推定を行う問題に対して,運動損失と呼ばれる新たな損失関数を提案する。
運動損失の計算では、ペアワイズ・モーション・エンコーディング(ペアワイズ・モーション・エンコーディング)と呼ばれる単純なキーポイント・モーションの表現が導入された。
UGCN(U-shaped GCN)と呼ばれる新しいグラフ畳み込みネットワークアーキテクチャを設計し,短期および長期の動作情報の両方をキャプチャする。
論文 参考訳(メタデータ) (2020-04-29T06:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。