論文の概要: Visual Question Answering based on Local-Scene-Aware Referring
Expression Generation
- arxiv url: http://arxiv.org/abs/2101.08978v1
- Date: Fri, 22 Jan 2021 07:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 17:25:06.213402
- Title: Visual Question Answering based on Local-Scene-Aware Referring
Expression Generation
- Title(参考訳): 局所シーン認識参照表現生成に基づく視覚的質問応答
- Authors: Jung-Jun Kim, Dong-Gyu Lee, Jialin Wu, Hong-Gyu Jung, Seong-Whan Lee
- Abstract要約: 複雑なシーンをイメージとして表現し、意思決定を行うためのテキスト表現の活用を提案します。
生成した式には視覚的特徴と質問埋め込みが組み込まれ、質問関連回答が得られる。
また、3つの異なる情報モダリティをコアテンションでモデル化するマルチヘッドアテンションネットワークを提案する。
- 参考スコア(独自算出の注目度): 27.080830480999527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual question answering requires a deep understanding of both images and
natural language. However, most methods mainly focus on visual concept; such as
the relationships between various objects. The limited use of object categories
combined with their relationships or simple question embedding is insufficient
for representing complex scenes and explaining decisions. To address this
limitation, we propose the use of text expressions generated for images,
because such expressions have few structural constraints and can provide richer
descriptions of images. The generated expressions can be incorporated with
visual features and question embedding to obtain the question-relevant answer.
A joint-embedding multi-head attention network is also proposed to model three
different information modalities with co-attention. We quantitatively and
qualitatively evaluated the proposed method on the VQA v2 dataset and compared
it with state-of-the-art methods in terms of answer prediction. The quality of
the generated expressions was also evaluated on the RefCOCO, RefCOCO+, and
RefCOCOg datasets. Experimental results demonstrate the effectiveness of the
proposed method and reveal that it outperformed all of the competing methods in
terms of both quantitative and qualitative results.
- Abstract(参考訳): 視覚的な質問応答には、画像と自然言語の両方を深く理解する必要がある。
しかし、ほとんどのメソッドは視覚的な概念(例えば様々なオブジェクト間の関係など)に焦点を当てている。
オブジェクトカテゴリとそれらの関係や単純な質問埋め込みの組み合わせは、複雑なシーンを表現し、決定を説明するのに不十分である。
この制限に対処するため,画像に生成するテキスト表現は構造的制約が少なく,よりリッチな画像記述を提供することができるため,その利用を提案する。
生成した式には視覚的特徴と質問埋め込みが組み込まれ、質問関連回答が得られる。
また、3つの異なる情報モダリティをコアテンションでモデル化するマルチヘッドアテンションネットワークを提案する。
提案手法をVQA v2データセット上で定量的に定性的に評価し,回答予測の観点から最先端の手法と比較した。
生成された式の品質は、RefCOCO、RefCOCO+、RefCOCOgデータセットでも評価された。
実験により,提案手法の有効性を実証し,定量的および定性的な結果の両面で競合する手法のすべてを上回る性能を示した。
関連論文リスト
- A Comprehensive Survey on Visual Question Answering Datasets and Algorithms [1.941892373913038]
我々は、VQAデータセットとモデルの現状を慎重に分析し、それらを異なるカテゴリにきれいに分割し、各カテゴリの方法論と特徴を要約する。
VQAモデルの6つの主要なパラダイムを探求する。融合、注意、あるモードからの情報を用いて、別のモードからの情報をフィルタリングする技法、外部知識ベース、構成または推論、グラフモデルである。
論文 参考訳(メタデータ) (2024-11-17T18:52:06Z) - Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文 参考訳(メタデータ) (2023-11-11T12:01:18Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Affect-Conditioned Image Generation [0.9668407688201357]
本稿では,心理学的に検証された3成分アプローチを用いて,所望の感情によって条件付けられた画像を生成する手法を提案する。
まず、セマンティック埋め込みからテキストや画像の影響内容を推定するためにニューラルネットワークをトレーニングし、それを様々な生成モデルを制御するためにどのように使用できるかを実証する。
論文 参考訳(メタデータ) (2023-02-20T03:44:04Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Coarse-to-Fine Reasoning for Visual Question Answering [18.535633096397397]
視覚質問応答(VQA)タスクにおいて,視覚的特徴と意味的手がかりのギャップを埋める新たな推論フレームワークを提案する。
提案手法は,まず特徴を抽出し,画像と質問から述語を抽出する。
次に、これらの特徴を効果的に学習し、粗大な方法で述語する新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-06T06:29:52Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - On the General Value of Evidence, and Bilingual Scene-Text Visual
Question Answering [120.64104995052189]
本稿では,2つの言語で表現された質問を含む,この問題に対処するための一歩を踏み出したデータセットを提案する。
推論を測定することは、偶然に正しい答えを罰することによって、直接一般化を促進する。
データセットはVQA問題のシーンテキストバージョンを反映しており、推論評価は参照表現課題のテキストベースのバージョンと見なすことができる。
論文 参考訳(メタデータ) (2020-02-24T13:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。