論文の概要: Tell Me the Evidence? Dual Visual-Linguistic Interaction for Answer
Grounding
- arxiv url: http://arxiv.org/abs/2207.05703v1
- Date: Tue, 21 Jun 2022 03:15:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-17 20:52:07.831060
- Title: Tell Me the Evidence? Dual Visual-Linguistic Interaction for Answer
Grounding
- Title(参考訳): 証拠を教えてください。
応答基底化のための視覚言語相互作用
- Authors: Junwen Pan, Guanlin Chen, Yi Liu, Jiexiang Wang, Cheng Bian, Pengfei
Zhu, Zhicheng Zhang
- Abstract要約: 本稿では,言語応答と視覚的接地機能を備えた新しいエンドツーエンドフレームワークであるDual Visual-Linguistic Interaction (DaVI)を提案する。
1)視覚的特徴が組み込まれた質問を理解し,さらに回答の復号化のための言語指向のエビデンスを生成する視覚的言語的エンコーダ,2)回答グラウンド化のためのエビデンス関連領域に視覚的特徴に焦点を当てた言語的視覚的デコーダである。
- 参考スコア(独自算出の注目度): 27.9150632791267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Answer grounding aims to reveal the visual evidence for visual question
answering (VQA), which entails highlighting relevant positions in the image
when answering questions about images. Previous attempts typically tackle this
problem using pretrained object detectors, but without the flexibility for
objects not in the predefined vocabulary. However, these black-box methods
solely concentrate on the linguistic generation, ignoring the visual
interpretability. In this paper, we propose Dual Visual-Linguistic Interaction
(DaVI), a novel unified end-to-end framework with the capability for both
linguistic answering and visual grounding. DaVI innovatively introduces two
visual-linguistic interaction mechanisms: 1) visual-based linguistic encoder
that understands questions incorporated with visual features and produces
linguistic-oriented evidence for further answer decoding, and 2)
linguistic-based visual decoder that focuses visual features on the
evidence-related regions for answer grounding. This way, our approach ranked
the 1st place in the answer grounding track of 2022 VizWiz Grand Challenge.
- Abstract(参考訳): アンサーグラウンド(Answer grounding)は、視覚的質問応答(VQA)の視覚的証拠を明らかにすることを目的としている。
以前の試みは、通常、事前訓練されたオブジェクト検出器を使用してこの問題に対処するが、事前に定義された語彙にはないオブジェクトに対する柔軟性がない。
しかし、これらのブラックボックス法は言語生成のみに集中し、視覚的解釈可能性を無視している。
本稿では,言語応答と視覚的接地機能を備えた新しいエンドツーエンドフレームワークであるDual Visual-Linguistic Interaction (DaVI)を提案する。
daviは2つの視覚言語相互作用機構を革新的に導入している。
1)視覚特徴を組み込んだ質問を理解し,さらなる回答復号のための言語指向の証拠を提示する視覚に基づく言語エンコーダ
2) 根拠関連領域の視覚的特徴に着目した言語ベースビジュアルデコーダ。
このようにして、私たちのアプローチは2022年のVizWiz Grand Challengeで1位にランクインしました。
関連論文リスト
- Help Me Identify: Is an LLM+VQA System All We Need to Identify Visual Concepts? [62.984473889987605]
本稿では,大規模言語モデルとVQA(Visual Question Answering)システムを活用した,視覚概念学習のためのゼロショットフレームワークを提案する。
VQAシステムに問い合わせ画像とともにこれらの質問を行い、回答を集約し、テスト画像中のオブジェクトの有無を判定する。
実験では,既存のゼロショット視覚分類法や少数ショット概念学習手法と同等の性能を示した。
論文 参考訳(メタデータ) (2024-10-17T15:16:10Z) - Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。
VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。
我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-01T07:44:24Z) - Equivariant and Invariant Grounding for Video Question Answering [68.33688981540998]
ほとんどの主要なVideoQAモデルはブラックボックスとして機能し、応答プロセスの背後にある視覚言語的なアライメントを曖昧にする。
解釈可能なビデオQA(EIGV)のための自己解釈可能なフレームワーク、同変および不変グラウンドを考案する。
EIGVは、因果場面と環境情報を区別し、視覚言語的アライメントを明確に提示することができる。
論文 参考訳(メタデータ) (2022-07-26T10:01:02Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding [35.01174511816063]
教師あり学習のための疑似言語クエリを自動生成するPseudo-Qという新しい手法を提案する。
本手法は,市販の物体検出装置を利用して,ラベルのない画像から視覚物体を識別する。
マルチレベル・クロスモーダルアテンション機構を備えた視覚言語モデルを開発した。
論文 参考訳(メタデータ) (2022-03-16T09:17:41Z) - Learning to Ground Visual Objects for Visual Dialog [26.21407651331964]
視覚対話のための視覚オブジェクトを学習する新しい手法を提案する。
視覚的対象に対する後続分布は、文脈(歴史と疑問)と答えの両方から推測される。
文脈のみから推定される事前分布を用いて後部分布を近似し、回答なしに適切な視覚オブジェクトをグラウンド化できるようにする。
論文 参考訳(メタデータ) (2021-09-13T14:48:44Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Vision and Language: from Visual Perception to Content Creation [100.36776435627962]
言語へのビジョン"は、おそらく過去5年で最も人気のあるトピックの1つである。
本稿は、これらの2つの側面に沿った最近の進歩、すなわち「言語へのビジョン」と「視覚への言語」を概観する。
論文 参考訳(メタデータ) (2019-12-26T14:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。