論文の概要: Sentence Attention Blocks for Answer Grounding
- arxiv url: http://arxiv.org/abs/2309.11593v1
- Date: Wed, 20 Sep 2023 19:12:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 17:53:05.340694
- Title: Sentence Attention Blocks for Answer Grounding
- Title(参考訳): 解答接地のための文注意ブロック
- Authors: Seyedalireza Khoshsirat and Chandra Kambhamettu
- Abstract要約: 本稿では,これらの問題を解決するために,文意図ブロック(Sentence Attention Block)と呼ばれる新しいアーキテクチャブロックを提案する。
提案ブロックは、画像特徴写像と文埋め込みの相互依存性を明示的にモデル化することにより、チャネルワイズな画像特徴写像を再校正する。
提案手法の有効性を,TextVQA-X,VQS,VQA-X,VizWiz-VQA-Groundingデータセットに示す。
- 参考スコア(独自算出の注目度): 3.66237529322911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Answer grounding is the task of locating relevant visual evidence for the
Visual Question Answering task. While a wide variety of attention methods have
been introduced for this task, they suffer from the following three problems:
designs that do not allow the usage of pre-trained networks and do not benefit
from large data pre-training, custom designs that are not based on
well-grounded previous designs, therefore limiting the learning power of the
network, or complicated designs that make it challenging to re-implement or
improve them. In this paper, we propose a novel architectural block, which we
term Sentence Attention Block, to solve these problems. The proposed block
re-calibrates channel-wise image feature-maps by explicitly modeling
inter-dependencies between the image feature-maps and sentence embedding. We
visually demonstrate how this block filters out irrelevant feature-maps
channels based on sentence embedding. We start our design with a well-known
attention method, and by making minor modifications, we improve the results to
achieve state-of-the-art accuracy. The flexibility of our method makes it easy
to use different pre-trained backbone networks, and its simplicity makes it
easy to understand and be re-implemented. We demonstrate the effectiveness of
our method on the TextVQA-X, VQS, VQA-X, and VizWiz-VQA-Grounding datasets. We
perform multiple ablation studies to show the effectiveness of our design
choices.
- Abstract(参考訳): 回答の根拠付けは、視覚的な質問応答タスクに関連する視覚的な証拠を見つける作業である。
この課題に様々な注意法が導入されたが、それらは以下の3つの問題に悩まされている: 事前訓練済みのネットワークの使用を許可せず、大規模データ事前学習の恩恵を受けない設計、事前訓練前の設計に基づいていないカスタムデザイン、ネットワークの学習能力の制限、ネットワークの再実装や改善を困難にする複雑な設計。
本稿では,これらの問題を解決するために,文注意ブロックと呼ぶ新しいアーキテクチャブロックを提案する。
提案ブロックは,画像特徴マップと文埋め込みの相互依存性を明示的にモデル化することにより,チャネルワイズな特徴マップを再検討する。
我々は,このブロックが文の埋め込みに基づいて,無関係な特徴マップチャネルをフィルタする様子を視覚的に示す。
我々は,よく知られた注意の手法で設計を開始し,マイナーな修正を行うことで,最先端の精度を達成するために結果を改善する。
提案手法の柔軟性により,事前学習したバックボーンネットワークの利用が容易になり,そのシンプルさにより理解や再実装が容易になる。
提案手法の有効性を,TextVQA-X,VQS,VQA-X,VizWiz-VQA-Groundingデータセットに示す。
我々は設計選択の有効性を示すために複数のアブレーション研究を行う。
関連論文リスト
- DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Customize Your Own Paired Data via Few-shot Way [14.193031218059646]
いくつかの教師付き手法は膨大な量のペアトレーニングデータを必要とするため、使用量が大幅に制限される。
他の教師なしの手法は、大規模な事前訓練された事前訓練を最大限に活用するため、事前訓練されたドメインに制限され、アウト・オブ・ディストリビューションのケースでひどく振る舞う。
提案フレームワークでは,サンプル間の方向変換に基づく新たな数ショット学習機構を導入し,学習可能な空間を指数関数的に拡張する。
論文 参考訳(メタデータ) (2024-05-21T04:21:35Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Building Shortcuts between Distant Nodes with Biaffine Mapping for Graph
Convolutional Networks [18.160610500658183]
本稿では,浅いアーキテクチャでグラフ畳み込みネットワークの表現性を向上するバイファイン手法を提案する。
提案手法は,ノードの長距離隣人への直接依存を学習することであり,ノード表現のためのリッチな情報を取得することができるのはワンホップメッセージパッシングのみである。
論文 参考訳(メタデータ) (2023-02-17T06:39:47Z) - Using Image Transformations to Learn Network Structure [0.0]
ノードのネットワークとノード間のフローを画像として扱う方法を示す。
画像圧縮技術を用いて、解釈可能な地理的情報を含む数値の集合まで画像を縮小する。
我々は,統計的に要約されたネットワーク情報を先行情報やユーザ決定情報として活用するベイズ強化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-12-06T23:28:38Z) - Mixed-Privacy Forgetting in Deep Networks [114.3840147070712]
大規模画像分類タスクにおいてトレーニングされたネットワークの重みからトレーニングサンプルのサブセットの影響を除去できることを示す。
そこで本研究では,混合プライバシー設定における「忘れ」という新しい概念を導入する。
提案手法は,モデル精度のトレードオフを伴わずに忘れることができることを示す。
論文 参考訳(メタデータ) (2020-12-24T19:34:56Z) - Semantic Layout Manipulation with High-Resolution Sparse Attention [106.59650698907953]
本稿では,意味ラベルマップを編集して入力画像を操作するセマンティックイメージレイアウト操作の課題に対処する。
このタスクの中核的な問題は、視覚的にイメージを現実的にしながら、入力画像から新しいセマンティックレイアウトに視覚的な詳細を転送する方法です。
512×512の解像度で視覚的詳細を新しいレイアウトに効果的に転送する高分解能スパースアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2020-12-14T06:50:43Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - Learning Visual Representations for Transfer Learning by Suppressing
Texture [38.901410057407766]
自己教師付き学習では、低レベルのキューとしてのテクスチャは、ネットワークがより高いレベルの表現を学習することを防ぐショートカットを提供する。
本稿では,異方性拡散に基づく古典的手法を用いて,テクスチャを抑圧した画像を用いた強化訓練を提案する。
提案手法は,物体検出と画像分類における最先端の成果を実証的に示す。
論文 参考訳(メタデータ) (2020-11-03T18:27:03Z) - Top-Down Networks: A coarse-to-fine reimagination of CNNs [25.079310083166824]
生物学的ビジョンは、粗い情報処理経路を採用する。
トップダウンネットワークは、高周波ノイズを発生させる敵攻撃に対する防御線を提供する。
本稿では,複数の視覚的タスクにおける様々な既存アーキテクチャへのトップダウン分解処理の適用性を示す実証的な証拠を提供する。
論文 参考訳(メタデータ) (2020-04-16T12:29:48Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。