論文の概要: Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion
Data and Natural Language
- arxiv url: http://arxiv.org/abs/2305.15842v2
- Date: Wed, 4 Oct 2023 12:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 22:01:56.932190
- Title: Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion
Data and Natural Language
- Title(参考訳): テキストから動きへの検索:人間の動きデータと自然言語の統合理解に向けて
- Authors: Nicola Messina, Jan Sedmidubsky, Fabrizio Falchi, Tom\'a\v{s} Rebok
- Abstract要約: 本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。
テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
- 参考スコア(独自算出の注目度): 4.86658723641864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to recent advances in pose-estimation methods, human motion can be
extracted from a common video in the form of 3D skeleton sequences. Despite
wonderful application opportunities, effective and efficient content-based
access to large volumes of such spatio-temporal skeleton data still remains a
challenging problem. In this paper, we propose a novel content-based
text-to-motion retrieval task, which aims at retrieving relevant motions based
on a specified natural-language textual description. To define baselines for
this uncharted task, we employ the BERT and CLIP language representations to
encode the text modality and successful spatio-temporal models to encode the
motion modality. We additionally introduce our transformer-based approach,
called Motion Transformer (MoT), which employs divided space-time attention to
effectively aggregate the different skeleton joints in space and time. Inspired
by the recent progress in text-to-image/video matching, we experiment with two
widely-adopted metric-learning loss functions. Finally, we set up a common
evaluation protocol by defining qualitative metrics for assessing the quality
of the retrieved motions, targeting the two recently-introduced KIT
Motion-Language and HumanML3D datasets. The code for reproducing our results is
available at https://github.com/mesnico/text-to-motion-retrieval.
- Abstract(参考訳): 近年のポーズ推定手法の進歩により、人間の動きは一般的なビデオから3Dスケルトン配列の形で抽出できる。
素晴らしい応用機会にもかかわらず、膨大な量の時空間スケルトンデータに対する効果的で効率的なコンテンツベースアクセスは依然として困難な問題である。
本稿では,特定の自然言語によるテキスト記述に基づいて,関連する動きを検索することを目的とした,コンテンツに基づくテキスト間テキスト検索タスクを提案する。
この非チャートタスクのベースラインを定義するために,BERTとCLIP言語表現を用いてテキストモダリティを符号化し,時空間モデルを成功させ,動きモダリティを符号化する。
さらに,運動トランスフォーマー (mot) と呼ばれるトランスフォーマーアプローチも導入し,スケルトン継手を空間的および時間的に効果的に集約するために,時空的注意を分割した。
テキスト対画像/ビデオマッチングの最近の進歩に触発されて,2つのメトリクス学習損失関数を実験した。
最後に、最近導入された2つのKIT Motion-LanguageデータセットとHumanML3Dデータセットを対象として、検索した動きの質を評価するための定性的指標を定義することで、共通評価プロトコルを構築した。
結果はhttps://github.com/mesnico/text-to-motion-retrieval.comで再生できます。
関連論文リスト
- Seamless Human Motion Composition with Blended Positional Encodings [38.85158088021282]
後処理や冗長な復調ステップを伴わずにシームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるフローMDMを紹介する。
我々はBabelとHumanML3Dデータセットの精度、リアリズム、スムーズさの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-23T18:59:40Z) - A Strong Baseline for Temporal Video-Text Alignment [67.0514869855102]
最適なタイムスタンプを推測するために、すべてのテキストをクエリとしてTransformerベースのアーキテクチャを採用する、シンプルで強力なモデルを構築します。
i)音声認識による誤りの低減のためのASRシステムのアップグレード効果,(ii)CLIPからS3D,さらに最近のInternVideoまで,様々な視覚的テクスチャバックボーンの効果について,徹底的な実験を行った。
提案手法は,ナレーションアライメントと手続き的ステップグラウンド処理の両方において優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model [11.873294782380984]
そこで本研究では,高精度なテキスト記述をサポートする高品質な条件付き人間の動作シーケンスを生成するための微細な手法を提案する。
本手法は,1) テキスト情報を完全に活用するための正確かつ完全な言語特徴を構築する言語構造支援モジュール,2) 多段階推論を実現するために,浅層および深層グラフニューラルネットワークから近隣および総合的な意味論的特徴を学習する文脈認識プログレッシブ推論モジュールの2つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-09-12T14:43:47Z) - AttT2M: Text-Driven Human Motion Generation with Multi-Perspective
Attention Mechanism [24.049207982022214]
マルチパースペクティブアテンション機構を持つ2段階手法である textbftT2M を提案する。
本手法は, 定性的, 定量的評価の観点から, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-09-02T02:18:17Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of
3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。
本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。
私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文 参考訳(メタデータ) (2022-07-04T19:52:18Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。