論文の概要: More Than Just Attention: Learning Cross-Modal Attentions with
Contrastive Constraints
- arxiv url: http://arxiv.org/abs/2105.09597v1
- Date: Thu, 20 May 2021 08:48:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:34:35.556062
- Title: More Than Just Attention: Learning Cross-Modal Attentions with
Contrastive Constraints
- Title(参考訳): 単なる注意以上のもの:コントラスト制約による横断的注意の学習
- Authors: Yuxiao Chen, Jianbo Yuan, Long Zhao, Rui Luo, Larry Davis, Dimitris N.
Metaxas
- Abstract要約: 本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。
CCRとCCSの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。
Flickr30kとMS-COCOのデータセットの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、モデルのパフォーマンスが向上することを示した。
- 参考スコア(独自算出の注目度): 63.08768589044052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention mechanisms have been widely applied to cross-modal tasks such as
image captioning and information retrieval, and have achieved remarkable
improvements due to its capability to learn fine-grained relevance across
different modalities. However, existing attention models could be sub-optimal
and lack preciseness because there is no direct supervision involved during
training. In this work, we propose Contrastive Content Re-sourcing (CCR) and
Contrastive Content Swapping (CCS) constraints to address such limitation.
These constraints supervise the training of attention models in a contrastive
learning manner without requiring explicit attention annotations. Additionally,
we introduce three metrics, namely Attention Precision, Recall and F1-Score, to
quantitatively evaluate the attention quality. We evaluate the proposed
constraints with cross-modal retrieval (image-text matching) task. The
experiments on both Flickr30k and MS-COCO datasets demonstrate that integrating
these attention constraints into two state-of-the-art attention-based models
improves the model performance in terms of both retrieval accuracy and
attention metrics.
- Abstract(参考訳): 注意機構は画像キャプションや情報検索などのクロスモーダルなタスクに広く適用されており、様々なモダリティ間の微妙な関係を学習する能力により、目覚ましい改善を遂げている。
しかし、既存の注意モデルは準最適であり、訓練中に直接の監督が伴わないため正確性に欠ける可能性がある。
本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。
これらの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。
さらに,注意の質を定量的に評価するために,注意精度,リコール,F1スコアの3つの指標を導入する。
提案する制約をクロスモーダル検索(画像テキストマッチング)タスクで評価する。
Flickr30kとMS-COCOのデータセットでの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、精度と注意度の両方の観点からモデルのパフォーマンスが向上することを示した。
関連論文リスト
- Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models! [3.355491272942994]
本研究では, 実体欠落問題の原因となる3つの要因について検討し, クロスアテンションダイナミクスに着目した。
実体間の注意マップの重複を減らすことは、実体の欠落率を効果的に最小化することを発見した。
論文 参考訳(メタデータ) (2024-10-28T12:43:48Z) - 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - Generic Attention-model Explainability by Weighted Relevance
Accumulation [9.816810016935541]
本稿では,トークン値の重要性を考慮に入れた重み付き関連性戦略を提案する。
提案手法を評価するために,CLIPをベースとした2段階モデルCLIPmapperを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:02:30Z) - SANCL: Multimodal Review Helpfulness Prediction with Selective Attention
and Natural Contrastive Learning [41.92038829041499]
MRHP(Multimodal Review Helpfulness Prediction)は、製品レビューを予測された有用度スコアに従ってソートすることを目的としている。
この課題のこれまでの研究は、注意に基づくモダリティ融合、情報統合、関係モデリングに重点を置いていた。
MRHPのためのSANCL: Selective Attention and Natural Contrastive Learningを提案する。
論文 参考訳(メタデータ) (2022-09-12T06:31:13Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - How Knowledge Graph and Attention Help? A Quantitative Analysis into
Bag-level Relation Extraction [66.09605613944201]
バッグレベルの関係抽出(RE)における注意と知識グラフの効果を定量的に評価する。
その結果,(1)注目精度の向上は,エンティティ参照特徴を抽出するモデルの性能を損なう可能性があること,(2)注目性能は様々なノイズ分布パターンの影響が大きいこと,(3)KG強化された注目はRE性能を向上するが,その効果は注目度を向上させるだけでなく,先行するエンティティを組み込むことによっても改善することがわかった。
論文 参考訳(メタデータ) (2021-07-26T09:38:28Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - Semi-supervised Left Atrium Segmentation with Mutual Consistency
Training [60.59108570938163]
3次元MR画像からの半教師付き左房分割のための新しいMultual Consistency Network(MC-Net)を提案する。
我々のMC-Netは1つのエンコーダと2つのわずかに異なるデコーダから構成されており、2つのデコーダの予測誤差は教師なしの損失として変換される。
我々は,公開左心房(la)データベース上でmc-netを評価し,ラベルなしデータを効果的に活用することで印象的な性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-04T09:34:32Z) - Attention Meets Perturbations: Robust and Interpretable Attention with
Adversarial Training [7.106986689736828]
我々は、自然言語処理タスクのための一般的な訓練手法を提案し、例えば、注意のためのAT(Attention AT)と、注意のためのより解釈可能なAT(Attention iAT)を提案する。
提案手法は,ATによる予測性能とモデル解釈性を改善した。
論文 参考訳(メタデータ) (2020-09-25T07:26:45Z) - Cross-Correlated Attention Networks for Person Re-Identification [34.84287025161801]
我々はCCA(Cross-Correlated Attention)と呼ばれる新しいアテンションモジュールを提案する。
CCAは、参加する異なる地域間での情報ゲインを最大化することで、そのような制限を克服することを目指している。
また,人物画像の頑健かつ識別的な表現を学習するために,異なる注意機構を利用する新しいディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-06-17T01:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。