論文の概要: Cross-Modal Common Representation Learning with Triplet Loss Functions
- arxiv url: http://arxiv.org/abs/2202.07901v1
- Date: Wed, 16 Feb 2022 07:09:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 14:25:06.569449
- Title: Cross-Modal Common Representation Learning with Triplet Loss Functions
- Title(参考訳): トリプルトロス関数を用いたクロスモーダル共通表現学習
- Authors: Felix Ott and David R\"ugamer and Lucas Heublein and Bernd Bischl and
Christopher Mutschler
- Abstract要約: 共通表現学習は、2つ以上のモダリティ間の共有埋め込みを学習し、モダリティの1つしか使用せず、与えられたタスクを改善する。
センサ付ペンの合成データと手書き認識データを用いた実験により, 分類精度の向上, 収束の高速化, 一般化性の向上が示された。
- 参考スコア(独自算出の注目度): 3.071136270246468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Common representation learning (CRL) learns a shared embedding between two or
more modalities to improve in a given task over using only one of the
modalities. CRL from different data types such as images and time-series data
(e.g., audio or text data) requires a deep metric learning loss that minimizes
the distance between the modality embeddings. In this paper, we propose to use
the triplet loss, which uses positive and negative identities to create sample
pairs with different labels, for CRL between image and time-series modalities.
By adapting the triplet loss for CRL, higher accuracy in the main (time-series
classification) task can be achieved by exploiting additional information of
the auxiliary (image classification) task. Our experiments on synthetic data
and handwriting recognition data from sensor-enhanced pens show an improved
classification accuracy, faster convergence, and a better generalizability.
- Abstract(参考訳): 共通表現学習(CRL)は、2つ以上のモダリティ間の共有埋め込みを学習し、モダリティの1つしか使用せず、与えられたタスクを改善する。
画像や時系列データ(例えば音声やテキストデータ)などの異なるデータ型からのCRLは、モダリティ埋め込み間の距離を最小化する深層学習損失を必要とする。
本稿では,画像と時系列間のCRLに対して,正と負の同一性を用いて異なるラベルを持つサンプルペアを生成する三重項損失を提案する。
CRLのトリプルト損失を適用することで、補助的(画像分類)タスクの追加情報を活用することにより、メイン(時系列分類)タスクの高精度化を実現することができる。
センサ付ペンの合成データと手書き認識データを用いた実験により, 分類精度の向上, 収束の高速化, 一般化性の向上が示された。
関連論文リスト
- Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。
我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。
我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文 参考訳(メタデータ) (2023-11-30T13:22:15Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - SCMM: Calibrating Cross-modal Representations for Text-Based Person Search [43.17325362167387]
テキスト・ベース・パーソナリティ・サーチ(TBPS)は,大規模ギャラリーから対象人物の正確な検索を可能にする重要なタスクである。
クロスモーダルTBPSタスクでは、共通埋め込み空間において、よく分散された表現を得ることが重要である。
本稿では,Sew and Masked Modeling (SCMM) という手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T07:50:16Z) - Speech-text based multi-modal training with bidirectional attention for
improved speech recognition [26.47071418582507]
ASRエンコーダ(ボット層)とテキストエンコーダ(テキストエンコーダ)をマルチモーダル学習法で共同学習するために,新しい双方向アテンション機構(BiAM)を提案する。
BiAMは特徴サンプリングレートの交換を促進することを目的としており、別の空間で測定すべきものに対する変換された特徴の品質を実現する。
Librispeech corpusの実験結果から、ペアデータ学習のみで最大6.15%のワードエラー率削減(WERR)を達成でき、また、より不適切なテキストデータを使用すると9.23%のWERRを実現することができる。
論文 参考訳(メタデータ) (2022-11-01T08:25:11Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - S2-Net: Self-supervision Guided Feature Representation Learning for
Cross-Modality Images [0.0]
モダリティ間の画像ペアは、通信の特徴表現を可能な限り近いものにするのに失敗することが多い。
本稿では,最近成功した検出・記述パイプラインに基づいて,モーダリティ間特徴表現学習ネットワークであるS2-Netを設計する。
本稿では,自己教師型学習とよく設計された損失関数を導入し,本来の利点を捨てることなくトレーニングを指導する。
論文 参考訳(メタデータ) (2022-03-28T08:47:49Z) - SwAMP: Swapped Assignment of Multi-Modal Pairs for Cross-Modal Retrieval [15.522964295287425]
未知のクラスを自己ラベル化した新たな損失関数を提案する。
我々は,テキストベースビデオ検索,スケッチベース画像検索,画像テキスト検索など,実世界のクロスモーダル検索問題に対するアプローチを検証した。
論文 参考訳(メタデータ) (2021-11-10T17:17:09Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Graph Convolution for Re-ranking in Person Re-identification [40.9727538382413]
類似度指標としてユークリッド距離を保ちながら,学習特徴を改善するグラフベースの再ランク付け手法を提案する。
ビデオ中の各トラックレットのプロファイルベクトルを生成するための簡易で効果的な手法が提案されている。
論文 参考訳(メタデータ) (2021-07-05T18:40:43Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。