論文の概要: LOIS: Looking Out of Instance Semantics for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2307.14142v1
- Date: Wed, 26 Jul 2023 12:13:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 12:30:45.616919
- Title: LOIS: Looking Out of Instance Semantics for Visual Question Answering
- Title(参考訳): LOIS:ビジュアル質問応答のためのインスタンスセマンティクスの展望
- Authors: Siyu Zhang, Yeming Chen, Yaoru Sun, Fang Wang, Haibo Shi, Haoran Wang
- Abstract要約: 画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
- 参考スコア(独自算出の注目度): 17.076621453814926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual question answering (VQA) has been intensively studied as a multimodal
task that requires effort in bridging vision and language to infer answers
correctly. Recent attempts have developed various attention-based modules for
solving VQA tasks. However, the performance of model inference is largely
bottlenecked by visual processing for semantics understanding. Most existing
detection methods rely on bounding boxes, remaining a serious challenge for VQA
models to understand the causal nexus of object semantics in images and
correctly infer contextual information. To this end, we propose a finer model
framework without bounding boxes in this work, termed Looking Out of Instance
Semantics (LOIS) to tackle this important issue. LOIS enables more fine-grained
feature descriptions to produce visual facts. Furthermore, to overcome the
label ambiguity caused by instance masks, two types of relation attention
modules: 1) intra-modality and 2) inter-modality, are devised to infer the
correct answers from the different multi-view features. Specifically, we
implement a mutual relation attention module to model sophisticated and deeper
visual semantic relations between instance objects and background information.
In addition, our proposed attention model can further analyze salient image
regions by focusing on important word-related questions. Experimental results
on four benchmark VQA datasets prove that our proposed method has favorable
performance in improving visual reasoning capability.
- Abstract(参考訳): 視覚的質問応答(VQA)は、視覚と言語を正しく推論するために、多モーダルなタスクとして集中的に研究されている。
最近の試みでは、VQAタスクを解くための様々な注意ベースのモジュールが開発されている。
しかし、モデル推論の性能は、セマンティックス理解のための視覚処理によってほとんどボトルネックとなる。
既存の検出手法の多くはバウンディングボックスに依存しており、VQAモデルでは画像中のオブジェクトの意味論の因果関係を理解し、コンテキスト情報を正しく推測することが深刻な課題である。
この目的のために,本研究では,この重要な問題に対処するため,LOIS(Looking Out of Instance Semantics)と呼ばれる,ボックス境界のないモデルフレームワークを提案する。
LOISにより、よりきめ細かい特徴記述が視覚的事実を生成する。
さらに、インスタンスマスクによるラベルの曖昧さを克服するために、関係注意モジュールは2種類ある。
1)モダリティ内及びモダリティ
2) モーダリティは, 異なるマルチビュー特徴から正しい回答を推測するために考案された。
具体的には、インスタンスオブジェクトと背景情報の間の高度な視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
また,提案する注意モデルは,単語に関する重要な質問に注目することで,画像領域をさらに分析することができる。
4つのベンチマークvqaデータセットにおける実験結果から,提案手法は視覚的推論能力の向上に好適な性能を示す。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文 参考訳(メタデータ) (2023-11-11T12:01:18Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - VQA with Cascade of Self- and Co-Attention Blocks [3.0013352260516744]
本研究の目的は、視覚的・テキスト的モダリティの密接な相互作用を通じて、改良されたマルチモーダル表現を学習することである。
提案モデルは,画像とテキストに自己注意と共同注意の両方を含む注意ブロックを有する。
論文 参考訳(メタデータ) (2023-02-28T17:20:40Z) - Cross-Modal Causal Relational Reasoning for Event-Level Visual Question
Answering [134.91774666260338]
既存の視覚的質問応答法は、しばしばクロスモーダルなスプリアス相関と過度に単純化されたイベントレベルの推論プロセスに悩まされる。
本稿では,イベントレベルの視覚的質問応答の課題に対処するために,モーダルな因果関係推論のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-26T04:25:54Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - An experimental study of the vision-bottleneck in VQA [17.132865538874352]
視覚質問応答(VQA)における視覚ブロックの検討
画像から抽出した視覚オブジェクトの量と品質を実験する。
また,質問に答えるために必要な対象に関する情報を組み込むための2つの方法の影響についても検討した。
論文 参考訳(メタデータ) (2022-02-14T16:43:32Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Dependent Multi-Task Learning with Causal Intervention for Image
Captioning [10.6405791176668]
本稿では、因果的介入(DMTCI)を伴う依存型マルチタスク学習フレームワークを提案する。
まず、中間タスク、カテゴリの袋生成、最終タスクの前に、画像キャプションを伴います。
次に、pearlのdo-calculusをモデルに適用し、視覚的特徴と共同設立者のつながりを取り除きます。
最後に,エンド・ツー・エンドのトレーニングを可能にし,タスク間エラーの蓄積を低減するために,マルチエージェント強化学習戦略を用いる。
論文 参考訳(メタデータ) (2021-05-18T14:57:33Z) - Multi-View Attention Network for Visual Dialog [5.731758300670842]
1) エージェントが質問の意味的意図を判断し, 2) 質問関連テキスト, 視覚的内容の調整を行う必要がある。
異種入力に関する複数のビューを利用するマルチビュー注意ネットワーク(MVAN)を提案する。
MVANは、2つの補完モジュールでダイアログ履歴から質問関連情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。