論文の概要: Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval
- arxiv url: http://arxiv.org/abs/2407.02104v1
- Date: Tue, 2 Jul 2024 09:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 16:04:54.469836
- Title: Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval
- Title(参考訳): テキスト・ツー・モーション検索のための共同データセット学習とクロス一貫性正規化
- Authors: Nicola Messina, Jan Sedmidubsky, Fabrizio Falchi, Tomáš Rebok,
- Abstract要約: 本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。
これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。
本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。
また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
- 参考スコア(独自算出の注目度): 4.454835029368504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pose-estimation methods enable extracting human motion from common videos in the structured form of 3D skeleton sequences. Despite great application opportunities, effective content-based access to such spatio-temporal motion data is a challenging problem. In this paper, we focus on the recently introduced text-motion retrieval tasks, which aim to search for database motions that are the most relevant to a specified natural-language textual description (text-to-motion) and vice-versa (motion-to-text). Despite recent efforts to explore these promising avenues, a primary challenge remains the insufficient data available to train robust text-motion models effectively. To address this issue, we propose to investigate joint-dataset learning - where we train on multiple text-motion datasets simultaneously - together with the introduction of a Cross-Consistent Contrastive Loss function (CCCL), which regularizes the learned text-motion common space by imposing uni-modal constraints that augment the representation ability of the trained network. To learn a proper motion representation, we also introduce a transformer-based motion encoder, called MoT++, which employs spatio-temporal attention to process sequences of skeleton data. We demonstrate the benefits of the proposed approaches on the widely-used KIT Motion-Language and HumanML3D datasets. We perform detailed experimentation on joint-dataset learning and cross-dataset scenarios, showing the effectiveness of each introduced module in a carefully conducted ablation study and, in turn, pointing out the limitations of state-of-the-art methods.
- Abstract(参考訳): ポーズ推定法は、一般的なビデオから3Dスケルトン配列の構造化形式で人間の動きを抽出することを可能にする。
アプリケーションの大きな機会にもかかわらず、このような時空間的な動きデータへの効果的なコンテンツベースのアクセスは難しい問題である。
本稿では,最近導入されたテキスト・ムーブメント検索タスクに着目し,特定の自然言語のテキスト記述(テキスト・トゥ・モーション)とバイス・ヴァーサ(モーション・トゥ・テキスト)に最も関連があるデータベース・ムーブメントを探索する。
これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルを効果的にトレーニングする上で利用可能な不十分なデータである。
そこで本研究では,複数のテキストモーションデータセットを同時にトレーニングする共同データセット学習と,トレーニングされたネットワークの表現能力を増大させる一様制約を課すことで,学習されたテキストモーション共通空間を正規化するクロスコントラスト・トラスト・ロス関数(CCCL)を導入することを提案する。
適切な動作表現を学習するために、スケルトンデータのプロセスシーケンスに時空間的に注意を払うMoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
我々は,広範に利用されているKIT Motion-LanguageとHumanML3Dデータセットに対する提案手法の利点を実証する。
共同データセット学習とクロスデータセットのシナリオについて詳細な実験を行い、各導入モジュールの有効性を慎重に研究し、その結果、最先端手法の限界を指摘する。
関連論文リスト
- Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Text-controlled Motion Mamba: Text-Instructed Temporal Grounding of Human Motion [21.750804738752105]
テキストベースヒューマンモーショングラウンドティング(THMG)の新たな課題について紹介する。
TM-Mambaは、時間的グローバルコンテキスト、言語クエリ制御、空間グラフトポロジを線形メモリコストのみで統合する統一モデルである。
BABEL-Groundingは、人間の行動の詳細なテキスト記述と対応する時間セグメントを提供する最初のテキスト・モーション・データセットである。
論文 参考訳(メタデータ) (2024-04-17T13:33:09Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion
Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。
テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文 参考訳(メタデータ) (2023-05-25T08:32:41Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。