論文の概要: Normalized and Geometry-Aware Self-Attention Network for Image
Captioning
- arxiv url: http://arxiv.org/abs/2003.08897v1
- Date: Thu, 19 Mar 2020 16:54:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 03:48:31.383475
- Title: Normalized and Geometry-Aware Self-Attention Network for Image
Captioning
- Title(参考訳): 画像キャプションのための正規化および幾何対応セルフアテンションネットワーク
- Authors: Longteng Guo, Jing Liu, Xinxin Zhu, Peng Yao, Shichen Lu, and Hanqing
Lu
- Abstract要約: 自己注意(SA)ネットワークは画像キャプションにおいて大きな価値を示している。
画像キャプションの性能向上のために,2つの側面からSAを改善した。
- 参考スコア(独自算出の注目度): 41.2200250259894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention (SA) network has shown profound value in image captioning. In
this paper, we improve SA from two aspects to promote the performance of image
captioning. First, we propose Normalized Self-Attention (NSA), a
reparameterization of SA that brings the benefits of normalization inside SA.
While normalization is previously only applied outside SA, we introduce a novel
normalization method and demonstrate that it is both possible and beneficial to
perform it on the hidden activations inside SA. Second, to compensate for the
major limit of Transformer that it fails to model the geometry structure of the
input objects, we propose a class of Geometry-aware Self-Attention (GSA) that
extends SA to explicitly and efficiently consider the relative geometry
relations between the objects in the image. To construct our image captioning
model, we combine the two modules and apply it to the vanilla self-attention
network. We extensively evaluate our proposals on MS-COCO image captioning
dataset and superior results are achieved when comparing to state-of-the-art
approaches. Further experiments on three challenging tasks, i.e. video
captioning, machine translation, and visual question answering, show the
generality of our methods.
- Abstract(参考訳): 自己注意ネットワークは画像キャプションにおいて大きな価値を示している。
本稿では,2つの側面からSAを改善し,画像キャプションの性能向上を図る。
まず、SA内部の正規化の利点をもたらすSAの再パラメータ化である正規化自己認識(NSA)を提案する。
従来, 正規化はSA外部にのみ適用されていたが, 新規な正規化法を導入し, SA内部の隠れアクティベーション上で実施することは可能かつ有益であることを示す。
次に,入力オブジェクトの幾何学構造をモデル化できないトランスフォーマーの限界を補うために,画像内のオブジェクト間の相対幾何学的関係を明確かつ効率的に検討するためにSAを拡張した幾何学的自己認識(GSA)のクラスを提案する。
画像キャプションモデルを構築するために,2つのモジュールを組み合わせて,バニラ自己注意ネットワークに適用する。
我々は,MS-COCO画像キャプションデータセットの提案を広範囲に評価し,最先端のアプローチと比較して優れた結果を得た。
ビデオキャプション,機械翻訳,視覚的質問応答の3つの課題に関するさらなる実験は,本手法の汎用性を示すものである。
関連論文リスト
- Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Question-Answer Cross Language Image Matching for Weakly Supervised
Semantic Segmentation [37.15828464616587]
クラスアクティベーションマップ(CAM)は、弱教師付きセマンティックセグメンテーションの一般的なツールとして登場した。
我々はWSSS(QA-CLIMS)のための質問応答クロスランゲージ画像マッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:55:13Z) - Align before Adapt: Leveraging Entity-to-Region Alignments for Generalizable Video Action Recognition [16.828560953073495]
本稿では,ビデオ表現学習のための新しいパラダイム"Align before Adapt"(ALT)を提案する。
我々は各フレームのエンティティ・ツー・リージョンのアライメントを利用して、領域認識画像の埋め込みをオフラインで構築したテキストコーパスにマッチングすることでアライメントを実現する。
ALTは計算コストを著しく低く保ちながら、競争性能を示す。
論文 参考訳(メタデータ) (2023-11-27T08:32:28Z) - Asymmetric Cross-Scale Alignment for Text-Based Person Search [15.618984100653348]
テキストに基づく人物探索 (TBPS) は知的監視において重要な意味を持つ歩行者画像の検索を目的としている。
このタスクを実装するには、画像ドメインとテキストドメインの両方からマルチスケールの機能を抽出し、その後、クロスモーダルアライメントを実行する必要がある。
マルチスケール表現を抽出し、非対称なクロススケールアライメント(ACSA)を行い、2つのモードを正確に整列するトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-26T08:34:35Z) - Siamese Image Modeling for Self-Supervised Vision Representation
Learning [73.78790119050056]
自己教師付き学習(SSL)は、さまざまな下流視覚タスクにおいて優れたパフォーマンスを提供している。
2つのメインストリームSSLフレームワーク、すなわちインスタンス識別(ID)とマスク画像モデリング(MIM)が提案されている。
本稿では,拡張ビューの濃密な表現を予測できるSiamese Image Modeling (SIM)を提案する。
論文 参考訳(メタデータ) (2022-06-02T17:59:58Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - Co-Attention for Conditioned Image Matching [91.43244337264454]
照明, 視点, コンテキスト, 素材に大きな変化がある場合, 野生のイメージペア間の対応性を決定するための新しい手法を提案する。
他のアプローチでは、イメージを個別に扱うことで、画像間の対応を見出すが、その代わりに、画像間の差異を暗黙的に考慮するよう、両画像に条件を付ける。
論文 参考訳(メタデータ) (2020-07-16T17:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。