Fugu-MT 論文翻訳(概要): External Knowledge Augmented Text Visual Question Answering

論文の概要: External Knowledge Augmented Text Visual Question Answering

arxiv url: http://arxiv.org/abs/2108.09717v1
Date: Sun, 22 Aug 2021 13:21:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-25 02:21:31.785957
Title: External Knowledge Augmented Text Visual Question Answering
Title（参考訳）: 外部知識強化テキスト視覚質問応答
Authors: Arka Ujjal Dey, Ernest Valveny, Gaurav Harit
Abstract要約: 本稿では,視覚言語理解タスクのための標準マルチモーダルトランスフォーマー上で知識を抽出,フィルタリング,エンコードするフレームワークを提案する。 2つの公開データセット上で、最先端のデータセットに匹敵する結果を生成する。
参考スコア（独自算出の注目度）: 0.6445605125467573
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The open-ended question answering task of Text-VQA requires reading and reasoning about local, often previously unseen, scene-text content of an image to generate answers. In this work, we propose the generalized use of external knowledge to augment our understanding of the said scene-text. We design a framework to extract, filter, and encode knowledge atop a standard multimodal transformer for vision language understanding tasks. Through empirical evidence, we demonstrate how knowledge can highlight instance-only cues and thus help deal with training data bias, improve answer entity type correctness, and detect multiword named entities. We generate results comparable to the state-of-the-art on two publicly available datasets, under the constraints of similar upstream OCR systems and training data.
Abstract（参考訳）: text-vqaのオープンエンドの質問応答タスクは、答えを生成するために、画像のローカル(以前は見つからなかった)のシーンテキストコンテンツの読み出しと推論を必要とする。本研究では,これらのシーンテキストの理解を高めるために,外部知識の汎用的利用を提案する。視覚言語理解タスクのための標準マルチモーダルトランスフォーマー上で知識の抽出,フィルタリング,エンコードを行うフレームワークを設計した。経験的エビデンスを通じて、知識がインスタンスのみの手がかりをどのように強調するかを示し、データバイアスのトレーニング、回答エンティティ型の正確性の向上、マルチワード名付きエンティティの検出を支援する。同様の上流ocrシステムとトレーニングデータの制約の下で、2つの公開データセットの最先端に匹敵する結果を生成する。

関連論文リスト

See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文参考訳（メタデータ） (2024-09-29T06:21:05Z)
Self-Bootstrapped Visual-Language Model for Knowledge Selection and Question Answering [11.183845003492964]
私たちはPassage Retrieval(DPR)を使って関連する知識を取得し、モデルが質問に答える手助けをします。 DPRは自然言語空間における検索を行うが、画像情報の総合的な取得は保証されない。本稿では、視覚言語モデルを利用して、DPRが検索した重要な知識を選択し、質問に答える新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-22T07:44:20Z)
VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文参考訳（メタデータ） (2024-04-10T15:09:15Z)
Contextual Knowledge Pursuit for Faithful Visual Synthesis [33.191847768674826]
大きな言語モデル(LLM)では、幻覚を減らすための一般的な戦略は、外部データベースから事実知識を取得することである。本稿では,外部知識とパラメトリック知識の相補的強みを利用して,生成元が信頼できる視覚コンテンツを生成できるようにするフレームワークであるコンパラメトリック知識探索法(CKPT)を提案する。
論文参考訳（メタデータ） (2023-11-29T18:51:46Z)
DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文参考訳（メタデータ） (2023-10-31T04:37:57Z)
Combo of Thinking and Observing for Outside-Knowledge VQA [13.838435454270014]
外部知識の視覚的質問応答は、買収とオープンエンドの現実世界の知識の使用の両方を必要とする難しいタスクである。本稿では,モダリティ空間を自然言語空間と同じ空間に制約することに着想を得た。本稿では,マルチモーダルエンコーダ,テキストエンコーダ,応答デコーダからなる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-10T18:32:32Z)
TegTok: Augmenting Text Generation via Task-specific and Open-world Knowledge [83.55215993730326]
本稿では,タスク固有およびオープンワールド知識(TegTok)によるTExt生成の統一化を提案する。本モデルでは,2種類の知識ソースからの知識エントリを高密度検索により選択し,それぞれ入力エンコーディングと出力デコーディングの段階に注入する。
論文参考訳（メタデータ） (2022-03-16T10:37:59Z)
Open Domain Question Answering over Virtual Documents: A Unified Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。 UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文参考訳（メタデータ） (2021-10-16T00:11:21Z)
Reasoning over Vision and Language: Exploring the Benefits of Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文参考訳（メタデータ） (2021-01-15T08:37:55Z)
Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge [62.46091695615262]
我々は、機械読解の理解を改善するために、常識知識を抽出することを目指している。構造化知識を文脈内に配置することで,関係を暗黙的に表現することを提案する。我々は,教師の学習パラダイムを用いて,複数種類の文脈的知識を学生機械読取機に注入する。
論文参考訳（メタデータ） (2020-09-12T17:20:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。