論文の概要: Discrete-continuous Action Space Policy Gradient-based Attention for
Image-Text Matching
- arxiv url: http://arxiv.org/abs/2104.10406v1
- Date: Wed, 21 Apr 2021 08:34:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 21:25:08.776592
- Title: Discrete-continuous Action Space Policy Gradient-based Attention for
Image-Text Matching
- Title(参考訳): 画像テキストマッチングのための離散連続行動空間ポリシー勾配に基づく注意
- Authors: Shiyang Yan, Li Yu, Yuan Xie
- Abstract要約: 本稿では,画像とテキストの埋め込みを共通空間に投影する新しい注意方式を提案する。
提案手法は, 注意を監督し, 追加アノテーションを必要としないものであると考えられる。
Flickr30kとMS-COCOの2つのベンチマークデータセットで提案手法を評価した。
- 参考スコア(独自算出の注目度): 17.371948483582393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-text matching is an important multi-modal task with massive
applications. It tries to match the image and the text with similar semantic
information. Existing approaches do not explicitly transform the different
modalities into a common space. Meanwhile, the attention mechanism which is
widely used in image-text matching models does not have supervision. We propose
a novel attention scheme which projects the image and text embedding into a
common space and optimises the attention weights directly towards the
evaluation metrics. The proposed attention scheme can be considered as a kind
of supervised attention and requiring no additional annotations. It is trained
via a novel Discrete-continuous action space policy gradient algorithm, which
is more effective in modelling complex action space than previous continuous
action space policy gradient. We evaluate the proposed methods on two
widely-used benchmark datasets: Flickr30k and MS-COCO, outperforming the
previous approaches by a large margin.
- Abstract(参考訳): 画像テキストマッチングは大規模アプリケーションにおいて重要なマルチモーダルタスクである。
画像とテキストを類似した意味情報で一致させようとする。
既存のアプローチは、異なるモジュラリティを共通空間に明示的に変換しない。
一方、画像テキストマッチングモデルに広く用いられている注意機構には、監督がない。
本稿では,画像とテキストの埋め込みを共通空間に投影し,評価指標に対して直接注意重みを最適化する新しい注意手法を提案する。
提案手法は, 注意を監督し, 追加アノテーションを必要としないものであると考えられる。
これは離散連続的な作用空間ポリシー勾配アルゴリズムによって訓練されており、これは以前の連続的な作用空間ポリシー勾配よりも複雑な作用空間をモデル化するのに効果的である。
提案手法をflickr30kとms-cocoの2つのベンチマークデータセットで評価し,従来の手法を大差で上回った。
関連論文リスト
- Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - Towards Generalizable Referring Image Segmentation via Target Prompt and
Visual Coherence [48.659338080020746]
Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。
本稿では,先述の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRISアプローチを提案する。
特に、制約のないテキストを扱うために、明示的で決定的なプロンプトで与えられた表現を増強し、統一された文脈での表現を補完することを提案する。
論文 参考訳(メタデータ) (2023-12-01T09:31:24Z) - A New Fine-grained Alignment Method for Image-text Matching [4.33417045761714]
クロスモーダルフラグメンツ強化アライニングネットワークは,検索精度の向上を実現する。
実際に、我々はまず、新しいモード内フラグメント関係推論法を設計する。
提案手法は, rSum測定値において, 最先端手法を約5%から10%向上させる。
論文 参考訳(メタデータ) (2023-11-03T18:27:43Z) - Grounded Text-to-Image Synthesis with Attention Refocusing [16.9170825951175]
拡散モデルのクロスアテンション層と自己アテンション層の潜在的な原因を明らかにする。
そこで本研究では,サンプリング中の空間配置に応じて注目マップを再焦点化するための2つの新たな損失を提案する。
提案手法は,既存手法の制御性を効果的に向上することを示す。
論文 参考訳(メタデータ) (2023-06-08T17:59:59Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Distributed Attention for Grounded Image Captioning [55.752968732796354]
弱教師付き接地画像キャプションの問題点について検討する。
目的は、画像の対応する領域に接する各名詞語で画像のコンテキストを記述する文を自動的に生成することである。
論文 参考訳(メタデータ) (2021-08-02T17:28:33Z) - Instance-aware Remote Sensing Image Captioning with Cross-hierarchy
Attention [11.23821696220285]
空間的注意は、リモートセンシング画像キャプションのパフォーマンスを高めるための簡単なアプローチです。
インスタンス認識と階層横断に注目したリモートセンシング画像キャプションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-05-11T12:59:07Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。