論文の概要: Cross-Modal Retrieval for Motion and Text via DopTriple Loss
- arxiv url: http://arxiv.org/abs/2305.04195v3
- Date: Tue, 3 Oct 2023 04:42:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 08:23:22.224111
- Title: Cross-Modal Retrieval for Motion and Text via DopTriple Loss
- Title(参考訳): DopTriple Lossによる運動とテキストのクロスモーダル検索
- Authors: Sheng Yan, Yang Liu, Haoqiang Wang, Xin Du, Mengyuan Liu, Hong Liu
- Abstract要約: 画像テキストとビデオテキストのクロスモーダル検索は、コンピュータビジョンと自然言語処理において顕著な研究領域である。
我々は,この課題に対処するために,簡潔で効果的なデュアル・ユニモーダル変換器エンコーダを利用する。
- 参考スコア(独自算出の注目度): 31.206130522960795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal retrieval of image-text and video-text is a prominent research
area in computer vision and natural language processing. However, there has
been insufficient attention given to cross-modal retrieval between human motion
and text, despite its wide-ranging applicability. To address this gap, we
utilize a concise yet effective dual-unimodal transformer encoder for tackling
this task. Recognizing that overlapping atomic actions in different human
motion sequences can lead to semantic conflicts between samples, we explore a
novel triplet loss function called DropTriple Loss. This loss function discards
false negative samples from the negative sample set and focuses on mining
remaining genuinely hard negative samples for triplet training, thereby
reducing violations they cause. We evaluate our model and approach on the
HumanML3D and KIT Motion-Language datasets. On the latest HumanML3D dataset, we
achieve a recall of 62.9% for motion retrieval and 71.5% for text retrieval
(both based on R@10). The source code for our approach is publicly available at
https://github.com/eanson023/rehamot.
- Abstract(参考訳): 画像テキストとビデオテキストのクロスモーダル検索は、コンピュータビジョンと自然言語処理における顕著な研究領域である。
しかし、広範に適用可能であるにもかかわらず、人間の動きとテキスト間の相互モーダル検索には注意が向けられていない。
このギャップに対処するために、この課題に取り組むために、簡潔で効果的なデュアルユニモーダルトランスフォーマエンコーダを利用する。
異なるヒトの動き列における原子作用の重なりがサンプル間の意味的衝突を引き起こすことを認識し、ドロップトリプル損失と呼ばれる新しい三重項損失関数を探索する。
この損失関数は、負のサンプルセットから偽の負のサンプルを破棄し、トリプルトトレーニングのために真にハードな負のサンプルをマイニングすることに焦点を当てる。
我々はHumanML3DとKIT Motion-Languageデータセットのモデルとアプローチを評価する。
最新のHumanML3Dデータセットでは、動作検索の62.9%、テキスト検索の71.5%をリコールする(どちらもR@10に基づいている)。
このアプローチのソースコードはhttps://github.com/eanson023/rehamot.comで公開されています。
関連論文リスト
- Occlusion-Aware 3D Motion Interpretation for Abnormal Behavior Detection [10.782354892545651]
我々は,メッシュ頂点とヒト関節の3次元座標をモノクロビデオから再構成し,運動異常を識別するOAD2Dを提案する。
動作特徴の定量化にVQVAEを用いるM2Tモデルと組み合わせることで、異常姿勢推定を再構成する。
本研究は, 重度・自己閉塞性に対する異常行動検出のロバスト性を示すものである。
論文 参考訳(メタデータ) (2024-07-23T18:41:16Z) - AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation [55.179287851188036]
人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
論文 参考訳(メタデータ) (2024-03-26T17:59:23Z) - RoHM: Robust Human Motion Reconstruction via Diffusion [58.63706638272891]
RoHMは、モノクロRGB(-D)ビデオから頑健な3次元人間の動きを復元するためのアプローチである。
ノイズと閉鎖された入力データに条件付けし、一貫した大域座標で完全な可塑性運動を再構成した。
本手法は,テスト時に高速でありながら,定性的かつ定量的に最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-01-16T18:57:50Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion
Synthesis [59.465092047829835]
我々は、テキストから3次元の人間の動きを抽出する簡単な方法であるTMRを提案する。
提案手法は,最先端のテキスト-モーション合成モデルTEMOSを拡張した。
運動生成損失の維持は、対照的な訓練とともに、優れた性能を得るためには不可欠であることを示す。
論文 参考訳(メタデータ) (2023-05-02T17:52:41Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - Intra-Modal Constraint Loss For Image-Text Retrieval [10.496611712280972]
クロスモーダル検索はコンピュータビジョンと自然言語処理領域に大きな注目を集めている。
畳み込みと繰り返しのニューラルネットワークの開発により、画像-テキストモダリティ間の検索のボトルネックは、もはや画像とテキストの特徴の抽出ではなく、埋め込み空間における効率的な損失関数学習である。
本稿では,画像とテキストの結合埋め込みをモダル内制約損失関数を用いて学習し,同じ均一なモードから負対の違反を低減する方法を提案する。
論文 参考訳(メタデータ) (2022-07-11T17:21:25Z) - Negative Sample is Negative in Its Own Way: Tailoring Negative Sentences
for Image-Text Retrieval [19.161248757493386]
本稿では, 否定文として自動的に合成文を生成するために, 識別・訂正による否定文をTAGS-DC(TAiloring Negative Sentences with Discrimination and Correction)を提案する。
トレーニング中の難易度を維持するため,パラメータ共有による検索と生成を相互に改善する。
実験では,MS-COCOおよびFlickr30Kにおけるモデルの有効性を,現在の最先端モデルと比較して検証した。
論文 参考訳(メタデータ) (2021-11-05T09:36:41Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z) - Weakly Supervised Generative Network for Multiple 3D Human Pose
Hypotheses [74.48263583706712]
単一画像からの3次元ポーズ推定は、欠落した深さのあいまいさに起因する逆問題である。
逆問題に対処するために,弱い教師付き深層生成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。