論文の概要: Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language Models
- arxiv url: http://arxiv.org/abs/2406.09994v1
- Date: Fri, 14 Jun 2024 13:07:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 13:45:23.970036
- Title: Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language Models
- Title(参考訳): 精密エンパワー、過剰抽出:言語モデルにおける動的注入知識を用いた視覚的質問応答
- Authors: Manas Jhalani, Annervaz K M, Pushpak Bhattacharyya,
- Abstract要約: KBVQA (Knowledge-Based Visual Question Answering) は、外部知識と質問に答える画像を追加することで、この概念を前進させる。
本研究の主な貢献は、動的トリプル抽出法を用いて知識グラフから抽出した外部知識を組み込むことにより、質問を強化することである。
知識に富んだ我々のモデルは,3種類のKBVQAデータセット上での最先端技術よりも,Exact Match Scoreの平均4.75%向上を示す。
- 参考スコア(独自算出の注目度): 36.56689822791777
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the realm of multimodal tasks, Visual Question Answering (VQA) plays a crucial role by addressing natural language questions grounded in visual content. Knowledge-Based Visual Question Answering (KBVQA) advances this concept by adding external knowledge along with images to respond to questions. We introduce an approach for KBVQA, augmenting the existing vision-language transformer encoder-decoder (OFA) model. Our main contribution involves enhancing questions by incorporating relevant external knowledge extracted from knowledge graphs, using a dynamic triple extraction method. We supply a flexible number of triples from the knowledge graph as context, tailored to meet the requirements for answering the question. Our model, enriched with knowledge, demonstrates an average improvement of 4.75\% in Exact Match Score over the state-of-the-art on three different KBVQA datasets. Through experiments and analysis, we demonstrate that furnishing variable triples for each question improves the reasoning capabilities of the language model in contrast to supplying a fixed number of triples. This is illustrated even for recent large language models. Additionally, we highlight the model's generalization capability by showcasing its SOTA-beating performance on a small dataset, achieved through straightforward fine-tuning.
- Abstract(参考訳): マルチモーダルタスクの領域において、視覚的質問回答(VQA)は、視覚的内容に根ざした自然言語質問に対処することで重要な役割を果たす。
KBVQA(Knowledge-Based Visual Question Answering)は、外部知識と画像を加えて質問に答えることで、この概念を前進させる。
KBVQAのアプローチを導入し、既存の視覚言語変換器エンコーダデコーダ(OFA)モデルを拡張した。
本研究の主な貢献は、動的トリプル抽出法を用いて知識グラフから抽出した外部知識を組み込むことにより、質問を強化することである。
質問に答える要求を満たすように調整された、コンテキストとして知識グラフから柔軟な3倍数を提供します。
我々のモデルは知識に富んだものであり、3つのKBVQAデータセットの最先端技術よりも、Exact Match Scoreの4.75倍の平均的な改善を示している。
実験と分析により,各質問に対する変数トリプルの調合により,一定数のトリプルの供給とは対照的に,言語モデルの推論能力が向上することを示した。
これは近年の大規模言語モデルにも当てはまる。
さらに、簡単な微調整によって達成された小さなデータセット上でSOTAビート性能を示すことにより、モデルの一般化能力を強調した。
関連論文リスト
- ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z) - Image Captioning for Effective Use of Language Models in Knowledge-Based
Visual Question Answering [17.51860125438028]
本稿では,画像と事前学習言語モデルの自動キャプションに基づく,単文のみの列車と推論手法を提案する。
外部知識 (OK-VQA) を必要とする視覚的質問応答タスクの結果, テキストのみのモデルは, パラメータ数に匹敵する事前学習されたマルチモーダル(画像-テキスト)モデルよりも優れていた。
論文 参考訳(メタデータ) (2021-09-15T14:11:29Z) - Enhancing Question Generation with Commonsense Knowledge [33.289599417096206]
質問生成プロセスにコモンセンス知識を導入するためのマルチタスク学習フレームワークを提案する。
SQuAD実験の結果,提案手法は自動評価と人的評価の両方でQG性能を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-19T08:58:13Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - Component Analysis for Visual Question Answering Architectures [10.56011196733086]
本論文の主な目的は,視覚質問応答モデルにおける各コンポーネントの影響を包括的に分析することである。
我々の主な貢献は、VQAモデルをトレーニングするためのコアコンポーネントを特定し、その予測性能を最大化することです。
論文 参考訳(メタデータ) (2020-02-12T17:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。