論文の概要: Combo of Thinking and Observing for Outside-Knowledge VQA
- arxiv url: http://arxiv.org/abs/2305.06407v1
- Date: Wed, 10 May 2023 18:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 16:53:40.569476
- Title: Combo of Thinking and Observing for Outside-Knowledge VQA
- Title(参考訳): 外部知識VQAの思考と観察のコンボ
- Authors: Qingyi Si, Yuchen Mo, Zheng Lin, Huishan Ji, Weiping Wang
- Abstract要約: 外部知識の視覚的質問応答は、買収とオープンエンドの現実世界の知識の使用の両方を必要とする難しいタスクである。
本稿では,モダリティ空間を自然言語空間と同じ空間に制約することに着想を得た。
本稿では,マルチモーダルエンコーダ,テキストエンコーダ,応答デコーダからなる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.838435454270014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Outside-knowledge visual question answering is a challenging task that
requires both the acquisition and the use of open-ended real-world knowledge.
Some existing solutions draw external knowledge into the cross-modality space
which overlooks the much vaster textual knowledge in natural-language space,
while others transform the image into a text that further fuses with the
textual knowledge into the natural-language space and completely abandons the
use of visual features. In this paper, we are inspired to constrain the
cross-modality space into the same space of natural-language space which makes
the visual features preserved directly, and the model still benefits from the
vast knowledge in natural-language space. To this end, we propose a novel
framework consisting of a multimodal encoder, a textual encoder and an answer
decoder. Such structure allows us to introduce more types of knowledge
including explicit and implicit multimodal and textual knowledge. Extensive
experiments validate the superiority of the proposed method which outperforms
the state-of-the-art by 6.17% accuracy. We also conduct comprehensive ablations
of each component, and systematically study the roles of varying types of
knowledge. Codes and knowledge data can be found at
https://github.com/PhoebusSi/Thinking-while-Observing.
- Abstract(参考訳): 外部知識による視覚的質問応答は、オープンエンドな実世界の知識の獲得と使用の両方を必要とする困難なタスクである。
既存のソリューションは、外部の知識をモダリティ空間に引き込み、自然言語空間におけるはるかに広大なテキスト知識を見渡す一方で、画像をテキストに変換することで、テキスト知識を自然言語空間に融合させ、視覚的特徴の使用を完全に放棄するものもある。
本稿では, 視覚的特徴を直接保存する自然言語空間の空間に, クロスモダリティ空間を拘束することに着想を得ており, モデルはまだ自然言語空間における膨大な知識の恩恵を受けている。
そこで本研究では,マルチモーダルエンコーダ,テキストエンコーダ,応答デコーダからなる新しいフレームワークを提案する。
このような構造によって、明示的および暗黙的なマルチモーダルおよびテキスト的知識を含む、より多くのタイプの知識を導入することができる。
広範な実験により、最先端の精度を6.17%向上させる提案手法の優位性が検証された。
また,各成分の包括的アブレーションを行い,各種知識の役割を体系的に研究した。
コードと知識データはhttps://github.com/phoebussi/thinking-while-observingで見ることができる。
関連論文リスト
- Open Visual Knowledge Extraction via Relation-Oriented Multimodality
Model Prompting [89.95541601837719]
オープンビジュアル知識抽出の新しいパラダイムを初めて探求する。
OpenVikは、リレーショナル知識を含む可能性のあるリージョンを検出するオープンリレーショナルリージョン検出器で構成されている。
検出された関心領域で大規模なマルチモーダリティモデルを促すことにより、書式のない知識を生成する視覚的知識生成装置。
論文 参考訳(メタデータ) (2023-10-28T20:09:29Z) - Multimodal Dialog Systems with Dual Knowledge-enhanced Generative Pretrained Language Model [63.461030694700014]
マルチモーダルなタスク指向対話システム(DKMD)のための新しい二元的知識強化型事前学習言語モデルを提案する。
提案したDKMDは,2つの知識選択,2つの知識強調型文脈学習,知識強調型応答生成という3つの重要なコンポーネントから構成される。
パブリックデータセットの実験は、最先端の競合相手よりも提案されたDKMDの優位性を検証する。
論文 参考訳(メタデータ) (2022-07-16T13:02:54Z) - Imagination-Augmented Natural Language Understanding [71.51687221130925]
自然言語理解タスクを解決するために,Imagination-Augmented Cross-modal (iACE)を導入する。
iACEは、強力な生成的および事前訓練された視覚・言語モデルから変換された外部知識で視覚的な想像を可能にする。
GLUEとSWAGの実験は、iACEが視覚的に教師付き事前訓練されたモデルよりも一貫した改善を達成していることを示している。
論文 参考訳(メタデータ) (2022-04-18T19:39:36Z) - A Thousand Words Are Worth More Than a Picture: Natural Language-Centric
Outside-Knowledge Visual Question Answering [47.1063091195119]
画像をプレーンテキストに変換するOK-VQAタスクのパラダイムシフトを求める。
Transform-Retrieve-Generate(TRiG)フレームワークが提案されている。
実験の結果、我々のTRiGフレームワークは、最先端の教師あり手法を少なくとも11.1%の絶対マージンで上回っていることがわかった。
論文 参考訳(メタデータ) (2022-01-14T04:12:46Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - External Knowledge Augmented Text Visual Question Answering [0.6445605125467573]
本稿では,視覚言語理解タスクのための標準マルチモーダルトランスフォーマー上で知識を抽出,フィルタリング,エンコードするフレームワークを提案する。
2つの公開データセット上で、最先端のデータセットに匹敵する結果を生成する。
論文 参考訳(メタデータ) (2021-08-22T13:21:58Z) - Learning Zero-Shot Multifaceted Visually Grounded Word Embeddingsvia
Multi-Task Training [8.271859911016719]
言語基盤は、言語(例えば言葉)の象徴的な表現を外界の豊かな知覚的知識に結びつけることを目的としている。
本稿では,言語共起統計から得られる抽象的知識を,知覚情報を取得する過程で犠牲にしていると論じる。
論文 参考訳(メタデータ) (2021-04-15T14:49:11Z) - Contextualized Knowledge-aware Attentive Neural Network: Enhancing
Answer Selection with Knowledge [77.77684299758494]
ナレッジグラフ(KG)による外部知識による回答選択モデル向上のアプローチを幅広く検討しています。
まず、KGの外部知識とテキスト情報との密接な相互作用を考慮し、QA文表現を学習するコンテキスト知識相互作用学習フレームワークであるナレッジアウェアニューラルネットワーク(KNN)を紹介します。
KG情報の多様性と複雑性に対処するために, カスタマイズされたグラフ畳み込みネットワーク (GCN) を介して構造情報を用いた知識表現学習を改善し, コンテキストベースおよび知識ベースの文表現を総合的に学習する コンテキスト型知識認識型アテンシブニューラルネットワーク (CKANN) を提案する。
論文 参考訳(メタデータ) (2021-04-12T05:52:20Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。