論文の概要: Spatial Attention as an Interface for Image Captioning Models
- arxiv url: http://arxiv.org/abs/2010.11701v1
- Date: Tue, 29 Sep 2020 16:04:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 05:17:11.535228
- Title: Spatial Attention as an Interface for Image Captioning Models
- Title(参考訳): 画像キャプションモデルのためのインタフェースとしての空間的注意
- Authors: Philipp Sadler
- Abstract要約: 神経画像キャプションモデルを用いて,その空間的注意における外的変化に対する反応を測定した。
実験の結果、キャプションモデルが52.65%までのメソッド依存的な変化に反応することが示されている。
単語,フレーズ,質問レベルの空間的注意を抽出することで,視覚的質問応答のための階層的共注意ネットワークへのリンクを確立した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The internal workings of modern deep learning models stay often unclear to an
external observer, although spatial attention mechanisms are involved. The idea
of this work is to translate these spatial attentions into natural language to
provide a simpler access to the model's function. Thus, I took a neural image
captioning model and measured the reactions to external modification in its
spatial attention for three different interface methods: a fixation over the
whole generation process, a fixation for the first time-steps and an addition
to the generator's attention. The experimental results for bounding box based
spatial attention vectors have shown that the captioning model reacts to method
dependent changes in up to 52.65% and includes in 9.00% of the cases object
categories, which were otherwise unmentioned. Afterwards, I established such a
link to a hierarchical co-attention network for visual question answering by
extraction of its word, phrase and question level spatial attentions. Here,
generated captions for the word level included details of the question-answer
pairs in up to 55.20% of the cases. This work indicates that spatial attention
seen as an external interface for image caption generators is an useful method
to access visual functions in natural language.
- Abstract(参考訳): 現代のディープラーニングモデルの内部動作は、空間的注意機構が関与しているにもかかわらず、外部の観測者にはしばしば不明瞭である。
この研究のアイデアは、これらの空間的注意を自然言語に翻訳し、モデルの関数へのより簡単なアクセスを提供することである。
そこで,筆者はニューラルイメージキャプションモデルを用いて,その空間的注目度における外部的修正に対する反応を,生成過程全体に対する固定,最初の時間ステップの固定,生成者の注意への付加という3つの異なるアプローチで測定した。
バウンディングボックスを用いた空間的注意ベクトルの実験結果は,キャプションモデルが最大52.65%のメソッド依存変化に反応し,対象カテゴリーの9.00%に含まれることを示した。
その後,その単語,句,質問レベルの空間的注意を抽出し,視覚的質問応答のための階層的協調ネットワークを構築した。
ここで生成された単語レベルのキャプションには、55.20%のケースで質問と回答のペアの詳細が含まれていた。
本研究は,画像キャプションジェネレータの外部インタフェースとして見られる空間的注意が,自然言語の視覚機能にアクセスする上で有用な方法であることを示す。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Guided Interpretable Facial Expression Recognition via Spatial Action Unit Cues [55.97779732051921]
オーキューを分類器学習に明示的に組み込むための新しい学習戦略が提案されている。
分類性能を劣化させることなく階層的解釈性を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-01T02:13:49Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - Beyond Self-attention: External Attention using Two Linear Layers for
Visual Tasks [34.32609892928909]
外部注意と呼ばれる新しい注意機構を,外部的,小さく,学習可能,共有的記憶の2つに基づいて提案する。
提案手法は,自己保持機構とその変種に匹敵する性能を有し,計算コストとメモリコストを大幅に低減する。
論文 参考訳(メタデータ) (2021-05-05T22:29:52Z) - AttnGrounder: Talking to Cars with Attention [6.09170287691728]
視覚的接地作業のための一段階から一段階の訓練可能なモデルを提案する。
Visual Groundingは、与えられた自然言語のテキストクエリに基づいて、特定のオブジェクトをイメージにローカライズすることを目的としている。
我々はTalk2Carデータセット上でAttnGrounderを評価し,既存の手法よりも3.26%改善したことを示す。
論文 参考訳(メタデータ) (2020-09-11T23:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。