論文の概要: TextAug: Test time Text Augmentation for Multimodal Person
Re-identification
- arxiv url: http://arxiv.org/abs/2312.01605v1
- Date: Mon, 4 Dec 2023 03:38:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 16:21:29.852975
- Title: TextAug: Test time Text Augmentation for Multimodal Person
Re-identification
- Title(参考訳): TextAug: マルチモーダルな人物再識別のためのテスト時間テキスト拡張
- Authors: Mulham Fawakherji, Eduard Vazquez, Pasquale Giampa, Binod Bhattarai
- Abstract要約: マルチモーダルディープラーニングのボトルネックは、多数のマルチモーダルトレーニング例の必要性にある。
画像領域では、トリミング、フリップ、回転などのデータ拡張技術がよく使われ、ディープラーニングモデルの一般化が向上する。
本研究では,マルチモーダルな人物再識別において,カットアウトとカットミックスという2つのコンピュータビジョンデータ拡張手法の有効性について検討した。
- 参考スコア(独自算出の注目度): 8.557492202759711
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal Person Reidentification is gaining popularity in the research
community due to its effectiveness compared to counter-part unimodal
frameworks. However, the bottleneck for multimodal deep learning is the need
for a large volume of multimodal training examples. Data augmentation
techniques such as cropping, flipping, rotation, etc. are often employed in the
image domain to improve the generalization of deep learning models. Augmenting
in other modalities than images, such as text, is challenging and requires
significant computational resources and external data sources. In this study,
we investigate the effectiveness of two computer vision data augmentation
techniques: cutout and cutmix, for text augmentation in multi-modal person
re-identification. Our approach merges these two augmentation strategies into
one strategy called CutMixOut which involves randomly removing words or
sub-phrases from a sentence (Cutout) and blending parts of two or more
sentences to create diverse examples (CutMix) with a certain probability
assigned to each operation. This augmentation was implemented at inference time
without any prior training. Our results demonstrate that the proposed technique
is simple and effective in improving the performance on multiple multimodal
person re-identification benchmarks.
- Abstract(参考訳): マルチモーダル・パーソナライゼーションは, 対局的な一助的枠組みに比べて, 有効性から研究コミュニティで人気が高まっている。
しかし、マルチモーダルディープラーニングのボトルネックは、多数のマルチモーダルトレーニング例を必要とすることである。
画像領域では、クロッピング、フリップ、ローテーションなどのデータ拡張技術が、ディープラーニングモデルの一般化を改善するためによく用いられる。
テキストなどの画像以外のモダリティの強化は困難であり、重要な計算資源と外部データソースを必要とする。
本研究では,マルチモーダルな人物再識別において,カットアウトとカットミックスという2つのコンピュータビジョンデータ拡張手法の有効性を検討した。
この2つの拡張戦略をcutmixoutと呼ばれる1つの戦略にマージし、文から単語やサブフレーズをランダムに取り除き(cutout)、2つ以上の文の一部をブレンドして様々な例(cutmix)を作成し、各操作に割り当てられた確率を割り当てる。
この拡張は、事前のトレーニングなしに推論時に実施された。
提案手法は,複数のマルチモーダル人物再識別ベンチマークの性能向上に有効であることを示す。
関連論文リスト
- Turbo your multi-modal classification with contrastive learning [17.983460380784337]
本稿では,マルチモーダル理解を促進するために,$Turbo$と呼ばれる新しいコントラスト学習戦略を提案する。
具体的には、マルチモーダルデータペアは、異なる隠されたドロップアウトマスクでフォワードパスを2回送って、各モダリティに対して2つの異なる表現を得る。
これらの表現により、トレーニングのための複数のインモーダルおよびクロスモーダルのコントラスト目的が得られる。
論文 参考訳(メタデータ) (2024-09-14T03:15:34Z) - Multi-Task Multi-Modal Self-Supervised Learning for Facial Expression Recognition [6.995226697189459]
In-the-wildビデオデータから表情認識のためのマルチモーダル自己教師学習手法を用いる。
以上の結果から,マルチモーダル・セルフ・スーパービジョン・タスクが課題に対して大きなパフォーマンス向上をもたらすことが示唆された。
トレーニング済みのモデルとソースコードを公開しています。
論文 参考訳(メタデータ) (2024-04-16T20:51:36Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - Cross-Modal Generalization: Learning in Low Resource Modalities via
Meta-Alignment [99.29153138760417]
クロスモーダル一般化は、ターゲットのモダリティにおいて、新しいタスクを迅速に実行できるモデルを訓練する学習パラダイムである。
我々は、異なるソースとターゲットのモダリティに対して異なるエンコーダを使用しながら、モダリティをまたいだ一般化を確保するにはどうすればよいのかという重要な研究課題について研究する。
メタアライメント(メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライ
論文 参考訳(メタデータ) (2020-12-04T19:27:26Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。