論文の概要: Cross-Modal Retrieval for Motion and Text via MildTriple Loss
- arxiv url: http://arxiv.org/abs/2305.04195v2
- Date: Mon, 17 Jul 2023 08:38:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 22:32:16.586227
- Title: Cross-Modal Retrieval for Motion and Text via MildTriple Loss
- Title(参考訳): 軽度三重項損失による運動とテキストのクロスモーダル検索
- Authors: Sheng Yan, Haoqiang Wang, Xin Du, Mengyuan Liu, Hong Liu
- Abstract要約: クロスモーダル検索はコンピュータビジョンと自然言語処理において顕著な研究トピックとなっている。
本稿では,単純だが強力なトランスフォーマーベースの動きとテキストエンコーダを含む革新的なモデルを提案する。
我々は最新のHumanML3DとKIT Motion-Languageデータセットのモデルと手法を評価する。
- 参考スコア(独自算出の注目度): 22.020288715384815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal retrieval has become a prominent research topic in computer
vision and natural language processing with advances made in image-text and
video-text retrieval technologies. However, cross-modal retrieval between human
motion sequences and text has not garnered sufficient attention despite the
extensive application value it holds, such as aiding virtual reality
applications in better understanding users' actions and language. This task
presents several challenges, including joint modeling of the two modalities,
demanding the understanding of person-centered information from text, and
learning behavior features from 3D human motion sequences. Previous work on
motion data modeling mainly relied on autoregressive feature extractors that
may forget previous information, while we propose an innovative model that
includes simple yet powerful transformer-based motion and text encoders, which
can learn representations from the two different modalities and capture
long-term dependencies. Furthermore, the overlap of the same atomic actions of
different human motions can cause semantic conflicts, leading us to explore a
new triplet loss function, MildTriple Loss. it leverages the similarity between
samples in intra-modal space to guide soft-hard negative sample mining in the
joint embedding space to train the triplet loss and reduce the violation caused
by false negative samples. We evaluated our model and method on the latest
HumanML3D and KIT Motion-Language datasets, achieving a 62.9\% recall for
motion retrieval and a 71.5\% recall for text retrieval (based on R@10) on the
HumanML3D dataset. Our code is available at
https://github.com/eanson023/rehamot.
- Abstract(参考訳): クロスモーダル検索は、画像テキスト検索技術やビデオテキスト検索技術の進歩により、コンピュータビジョンと自然言語処理において顕著な研究トピックとなっている。
しかし,人間の動作シーケンスとテキスト間のクロスモーダル検索は,ユーザの行動や言語をよりよく理解するための仮想現実アプリケーションを支援するなど,アプリケーションの価値が広いにもかかわらず,十分な注意を払っていない。
本課題は,2つのモダリティの連成モデリング,テキストからの人中心情報理解,人間の3次元動作系列からの学習行動特徴などの課題を提示する。
動作データモデリングにおける従来の研究は,従来の情報を忘れてしまうような自己回帰的特徴抽出器に頼っていた。一方,2つの異なるモードから表現を学習し,長期的依存関係をキャプチャする,単純かつパワフルなトランスフォーマーベースモーションとテキストエンコーダを含む革新的なモデルを提案する。
さらに、異なる人間の動きの同じ原子の作用が重なり合うことで意味的な対立が生じ、新たな三重項損失関数であるMildTriple Lossが探索される。
モーダル空間内のサンプル間の類似性を利用して、結合埋め込み空間における軟弱な負のサンプルマイニングを誘導し、三重項損失を訓練し、偽負のサンプルによる違反を減らす。
我々は,最新のHumanML3DおよびKIT Motion-Languageデータセットのモデルと手法を評価し,動作検索の62.9%のリコール,テキスト検索の71.5\%のリコールを実現した。
私たちのコードはhttps://github.com/eanson023/rehamot.comで利用可能です。
関連論文リスト
- Occlusion-Aware 3D Motion Interpretation for Abnormal Behavior Detection [10.782354892545651]
我々は,メッシュ頂点とヒト関節の3次元座標をモノクロビデオから再構成し,運動異常を識別するOAD2Dを提案する。
動作特徴の定量化にVQVAEを用いるM2Tモデルと組み合わせることで、異常姿勢推定を再構成する。
本研究は, 重度・自己閉塞性に対する異常行動検出のロバスト性を示すものである。
論文 参考訳(メタデータ) (2024-07-23T18:41:16Z) - AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation [55.179287851188036]
人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
論文 参考訳(メタデータ) (2024-03-26T17:59:23Z) - RoHM: Robust Human Motion Reconstruction via Diffusion [58.63706638272891]
RoHMは、モノクロRGB(-D)ビデオから頑健な3次元人間の動きを復元するためのアプローチである。
ノイズと閉鎖された入力データに条件付けし、一貫した大域座標で完全な可塑性運動を再構成した。
本手法は,テスト時に高速でありながら,定性的かつ定量的に最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-01-16T18:57:50Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion
Synthesis [59.465092047829835]
我々は、テキストから3次元の人間の動きを抽出する簡単な方法であるTMRを提案する。
提案手法は,最先端のテキスト-モーション合成モデルTEMOSを拡張した。
運動生成損失の維持は、対照的な訓練とともに、優れた性能を得るためには不可欠であることを示す。
論文 参考訳(メタデータ) (2023-05-02T17:52:41Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - Intra-Modal Constraint Loss For Image-Text Retrieval [10.496611712280972]
クロスモーダル検索はコンピュータビジョンと自然言語処理領域に大きな注目を集めている。
畳み込みと繰り返しのニューラルネットワークの開発により、画像-テキストモダリティ間の検索のボトルネックは、もはや画像とテキストの特徴の抽出ではなく、埋め込み空間における効率的な損失関数学習である。
本稿では,画像とテキストの結合埋め込みをモダル内制約損失関数を用いて学習し,同じ均一なモードから負対の違反を低減する方法を提案する。
論文 参考訳(メタデータ) (2022-07-11T17:21:25Z) - Negative Sample is Negative in Its Own Way: Tailoring Negative Sentences
for Image-Text Retrieval [19.161248757493386]
本稿では, 否定文として自動的に合成文を生成するために, 識別・訂正による否定文をTAGS-DC(TAiloring Negative Sentences with Discrimination and Correction)を提案する。
トレーニング中の難易度を維持するため,パラメータ共有による検索と生成を相互に改善する。
実験では,MS-COCOおよびFlickr30Kにおけるモデルの有効性を,現在の最先端モデルと比較して検証した。
論文 参考訳(メタデータ) (2021-11-05T09:36:41Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z) - Weakly Supervised Generative Network for Multiple 3D Human Pose
Hypotheses [74.48263583706712]
単一画像からの3次元ポーズ推定は、欠落した深さのあいまいさに起因する逆問題である。
逆問題に対処するために,弱い教師付き深層生成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。