論文の概要: Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion
Data and Natural Language
- arxiv url: http://arxiv.org/abs/2305.15842v2
- Date: Wed, 4 Oct 2023 12:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 22:01:56.932190
- Title: Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion
Data and Natural Language
- Title(参考訳): テキストから動きへの検索:人間の動きデータと自然言語の統合理解に向けて
- Authors: Nicola Messina, Jan Sedmidubsky, Fabrizio Falchi, Tom\'a\v{s} Rebok
- Abstract要約: 本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。
テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
- 参考スコア(独自算出の注目度): 4.86658723641864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to recent advances in pose-estimation methods, human motion can be
extracted from a common video in the form of 3D skeleton sequences. Despite
wonderful application opportunities, effective and efficient content-based
access to large volumes of such spatio-temporal skeleton data still remains a
challenging problem. In this paper, we propose a novel content-based
text-to-motion retrieval task, which aims at retrieving relevant motions based
on a specified natural-language textual description. To define baselines for
this uncharted task, we employ the BERT and CLIP language representations to
encode the text modality and successful spatio-temporal models to encode the
motion modality. We additionally introduce our transformer-based approach,
called Motion Transformer (MoT), which employs divided space-time attention to
effectively aggregate the different skeleton joints in space and time. Inspired
by the recent progress in text-to-image/video matching, we experiment with two
widely-adopted metric-learning loss functions. Finally, we set up a common
evaluation protocol by defining qualitative metrics for assessing the quality
of the retrieved motions, targeting the two recently-introduced KIT
Motion-Language and HumanML3D datasets. The code for reproducing our results is
available at https://github.com/mesnico/text-to-motion-retrieval.
- Abstract(参考訳): 近年のポーズ推定手法の進歩により、人間の動きは一般的なビデオから3Dスケルトン配列の形で抽出できる。
素晴らしい応用機会にもかかわらず、膨大な量の時空間スケルトンデータに対する効果的で効率的なコンテンツベースアクセスは依然として困難な問題である。
本稿では,特定の自然言語によるテキスト記述に基づいて,関連する動きを検索することを目的とした,コンテンツに基づくテキスト間テキスト検索タスクを提案する。
この非チャートタスクのベースラインを定義するために,BERTとCLIP言語表現を用いてテキストモダリティを符号化し,時空間モデルを成功させ,動きモダリティを符号化する。
さらに,運動トランスフォーマー (mot) と呼ばれるトランスフォーマーアプローチも導入し,スケルトン継手を空間的および時間的に効果的に集約するために,時空的注意を分割した。
テキスト対画像/ビデオマッチングの最近の進歩に触発されて,2つのメトリクス学習損失関数を実験した。
最後に、最近導入された2つのKIT Motion-LanguageデータセットとHumanML3Dデータセットを対象として、検索した動きの質を評価するための定性的指標を定義することで、共通評価プロトコルを構築した。
結果はhttps://github.com/mesnico/text-to-motion-retrieval.comで再生できます。
関連論文リスト
- Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval [4.454835029368504]
本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。
これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。
本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。
また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
論文 参考訳(メタデータ) (2024-07-02T09:43:47Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Text-controlled Motion Mamba: Text-Instructed Temporal Grounding of Human Motion [21.750804738752105]
テキストベースヒューマンモーショングラウンドティング(THMG)の新たな課題について紹介する。
TM-Mambaは、時間的グローバルコンテキスト、言語クエリ制御、空間グラフトポロジを線形メモリコストのみで統合する統一モデルである。
BABEL-Groundingは、人間の行動の詳細なテキスト記述と対応する時間セグメントを提供する最初のテキスト・モーション・データセットである。
論文 参考訳(メタデータ) (2024-04-17T13:33:09Z) - GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts [48.28000728061778]
本稿では,オープンな語彙シーンエンコーダをアーキテクチャに統合し,テキストとシーン間の堅牢な接続を確立する手法を提案する。
提案手法は,従来の最先端ベースラインモデルと比較すると,目標目標距離距離を最大30%削減する。
論文 参考訳(メタデータ) (2024-04-08T18:24:12Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of
3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。
本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。
私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文 参考訳(メタデータ) (2022-07-04T19:52:18Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。