論文の概要: TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion
Synthesis
- arxiv url: http://arxiv.org/abs/2305.00976v2
- Date: Fri, 25 Aug 2023 09:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 17:20:24.285013
- Title: TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion
Synthesis
- Title(参考訳): TMR: 対照的な3次元動作合成を用いたテキスト間検索
- Authors: Mathis Petrovich, Michael J. Black, G\"ul Varol
- Abstract要約: 我々は、テキストから3次元の人間の動きを抽出する簡単な方法であるTMRを提案する。
提案手法は,最先端のテキスト-モーション合成モデルTEMOSを拡張した。
運動生成損失の維持は、対照的な訓練とともに、優れた性能を得るためには不可欠であることを示す。
- 参考スコア(独自算出の注目度): 59.465092047829835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present TMR, a simple yet effective approach for text to 3D
human motion retrieval. While previous work has only treated retrieval as a
proxy evaluation metric, we tackle it as a standalone task. Our method extends
the state-of-the-art text-to-motion synthesis model TEMOS, and incorporates a
contrastive loss to better structure the cross-modal latent space. We show that
maintaining the motion generation loss, along with the contrastive training, is
crucial to obtain good performance. We introduce a benchmark for evaluation and
provide an in-depth analysis by reporting results on several protocols. Our
extensive experiments on the KIT-ML and HumanML3D datasets show that TMR
outperforms the prior work by a significant margin, for example reducing the
median rank from 54 to 19. Finally, we showcase the potential of our approach
on moment retrieval. Our code and models are publicly available at
https://mathis.petrovich.fr/tmr.
- Abstract(参考訳): 本稿では,テキストから3次元動作検索への簡易かつ効果的な手法であるtmrを提案する。
これまでの作業では検索をプロキシ評価指標としてのみ扱っていたが,スタンドアロンタスクとして取り組んだ。
本手法は,最先端のテクスト・ツー・モーション合成モデルtemosを拡張し,クロスモーダル潜在空間の構造を改善するためにコントラスト損失を取り入れる。
運動生成損失の維持は, コントラストトレーニングとともに, 良好なパフォーマンスを得る上で重要であることが示された。
評価のためのベンチマークを導入し,いくつかのプロトコルで結果を報告して詳細な分析を行う。
KIT-MLとHumanML3Dデータセットに関する広範な実験により、TMRは、例えば、中央値のランクを54から19に下げるなど、前よりも大幅に向上していることが示された。
最後に,モーメント検索におけるアプローチの可能性を示す。
私たちのコードとモデルはhttps://mathis.petrovich.fr/tmr.で公開されている。
関連論文リスト
- mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval [67.50604814528553]
まず、RoPEとアンパディングで強化されたテキストエンコーダを導入し、ネイティブの8192-tokenコンテキストで事前トレーニングを行った。
そして、コントラスト学習によりハイブリッドTRMとクロスエンコーダ・リランカを構築する。
論文 参考訳(メタデータ) (2024-07-29T03:12:28Z) - Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval [4.454835029368504]
本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。
これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。
本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。
また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
論文 参考訳(メタデータ) (2024-07-02T09:43:47Z) - Black-box Adversarial Attacks against Dense Retrieval Models: A
Multi-view Contrastive Learning Method [115.29382166356478]
本稿では,敵探索攻撃(AREA)タスクを紹介する。
DRモデルは、DRモデルによって取得された候補文書の初期セットの外側にあるターゲット文書を取得するように、DRモデルを騙すことを目的としている。
NRM攻撃で報告された有望な結果は、DRモデルに一般化されない。
マルチビュー表現空間における対照的な学習問題として,DRモデルに対する攻撃を形式化する。
論文 参考訳(メタデータ) (2023-08-19T00:24:59Z) - Cross-Modal Retrieval for Motion and Text via DopTriple Loss [31.206130522960795]
画像テキストとビデオテキストのクロスモーダル検索は、コンピュータビジョンと自然言語処理において顕著な研究領域である。
我々は,この課題に対処するために,簡潔で効果的なデュアル・ユニモーダル変換器エンコーダを利用する。
論文 参考訳(メタデータ) (2023-05-07T05:40:48Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z) - T2M-GPT: Generating Human Motion from Textual Descriptions with Discrete
Representations [34.61255243742796]
一般的なトレーニングレシピ (EMA と Code Reset) を用いた単純な CNN ベースの VQ-VAE により,高品質な離散表現が得られることを示す。
その単純さにもかかわらず、我々のT2M-GPTは競合するアプローチよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-01-15T09:34:42Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。