論文の概要: LaKo: Knowledge-driven Visual Question Answering via Late
Knowledge-to-Text Injection
- arxiv url: http://arxiv.org/abs/2207.12888v1
- Date: Tue, 26 Jul 2022 13:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:18:45.674772
- Title: LaKo: Knowledge-driven Visual Question Answering via Late
Knowledge-to-Text Injection
- Title(参考訳): LaKo: ラトナレッジ・トゥ・テキスト・インジェクションによる知識駆動型視覚質問応答
- Authors: Zhuo Chen, Yufeng Huang, Jiaoyan Chen, Yuxia Geng, Yin Fang, Jeff Pan,
Ningyu Zhang, Wen Zhang
- Abstract要約: 我々はLate Knowledge-to-text Injectionによる知識駆動型VQA手法であるLaKoを提案する。
外部KGを効果的に組み込むため、三重項をテキストに転送し、遅延注入機構を提案する。
提案手法は,OKVQAデータセットを用いた評価において,最先端の結果が得られた。
- 参考スコア(独自算出の注目度): 30.65373229617201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual question answering (VQA) often requires an understanding of visual
concepts and language semantics, which relies on external knowledge. Most
existing methods exploit pre-trained language models or/and unstructured text,
but the knowledge in these resources are often incomplete and noisy. Some
methods prefer to use knowledge graphs (KGs) which often have intensive
structured knowledge, but the research is still quite preliminary. In this
paper, we propose LaKo, a knowledge-driven VQA method via Late
Knowledge-to-text Injection. To effectively incorporate an external KG, we
transfer triples into text and propose a late injection mechanism. Finally we
address VQA as a text generation task with an effective encoder-decoder
paradigm. In the evaluation with OKVQA datasets, our method achieves
state-of-the-art results.
- Abstract(参考訳): 視覚的質問応答(VQA)はしばしば、外部知識に依存する視覚概念と言語意味論の理解を必要とする。
既存のほとんどのメソッドは事前訓練された言語モデルまたは/および構造化されていないテキストを利用するが、これらのリソースの知識はしばしば不完全でうるさい。
知識グラフ(KG)は、しばしば構造化された知識を多く含むが、まだかなり予備的な研究である。
本稿では,Late Knowledge-to-text Injectionによる知識駆動型VQA手法であるLaKoを提案する。
外部kgを効果的に組み込むため,トリプルをテキストに転送し,遅延注入機構を提案する。
最後に,VQAを効率的なエンコーダ・デコーダパラダイムを用いたテキスト生成タスクとして扱う。
okvqaデータセットを用いた評価において,本手法は最先端の結果を得る。
関連論文リスト
- A Simple Baseline for Knowledge-Based Visual Question Answering [78.00758742784532]
本稿では,知識に基づく視覚質問応答(KB-VQA)の問題について述べる。
本論文の主な貢献は,よりシンプルで容易に再現可能なパイプラインを提案することである。
近年のアプローチとは対照的に,本手法はトレーニングフリーであり,外部データベースやAPIへのアクセスを必要とせず,OK-VQAおよびA-OK-VQAデータセット上で最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-10-20T15:08:17Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - Asking for Knowledge: Training RL Agents to Query External Knowledge
Using Language [121.56329458876655]
グリッドワールドベースのQ-BabyAIとテキストベースのQ-TextWorldの2つの新しい環境を紹介した。
本稿では,意味のある知識を問うための言語コマンドを生成する「知識の探索(AFK)」エージェントを提案する。
論文 参考訳(メタデータ) (2022-05-12T14:20:31Z) - Incorporating Explicit Knowledge in Pre-trained Language Models for
Passage Re-ranking [32.22697200984185]
本稿では,新しい知識グラフ蒸留法を提案し,問合せと通過の橋渡しとして知識メタグラフを得る。
PLMをテキストエンコーダとして,知識メタグラフを知識エンコーダとして,グラフニューラルネットワークとして採用した。
論文 参考訳(メタデータ) (2022-04-25T14:07:28Z) - TegTok: Augmenting Text Generation via Task-specific and Open-world
Knowledge [83.55215993730326]
本稿では,タスク固有およびオープンワールド知識(TegTok)によるTExt生成の統一化を提案する。
本モデルでは,2種類の知識ソースからの知識エントリを高密度検索により選択し,それぞれ入力エンコーディングと出力デコーディングの段階に注入する。
論文 参考訳(メタデータ) (2022-03-16T10:37:59Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Weakly-Supervised Visual-Retriever-Reader for Knowledge-based Question
Answering [16.96751206502189]
知識に基づく視覚的質問応答(VQA)は、画像の内容に加えて、外部知識で質問に答える必要がある。
知識に基づくVQAの評価に主に使用されるデータセットはOK-VQAであるが、検索のための金の標準知識コーパスがない。
知識に基づくVQAにアプローチするためのVisual Retriever-Readerパイプラインを提案する。
論文 参考訳(メタデータ) (2021-09-09T03:21:32Z) - External Knowledge Augmented Text Visual Question Answering [0.6445605125467573]
本稿では,視覚言語理解タスクのための標準マルチモーダルトランスフォーマー上で知識を抽出,フィルタリング,エンコードするフレームワークを提案する。
2つの公開データセット上で、最先端のデータセットに匹敵する結果を生成する。
論文 参考訳(メタデータ) (2021-08-22T13:21:58Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Improving Commonsense Question Answering by Graph-based Iterative
Retrieval over Multiple Knowledge Sources [26.256653692882715]
疑問に答えるシステムにおいて、コモンセンスを効果的に活用する方法はまだ検討中である。
本研究では,ConceptNet,Wikipedia,Cambridge Dictionaryを統合した質問応答手法を提案する。
学習済みの言語モデルを用いて、質問を符号化し、知識と選択を検索し、回答の選択を意識した注意機構を提案する。
論文 参考訳(メタデータ) (2020-11-05T08:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。