論文の概要: Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge
- arxiv url: http://arxiv.org/abs/2101.06013v1
- Date: Fri, 15 Jan 2021 08:37:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 11:25:43.917161
- Title: Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge
- Title(参考訳): 視覚と言語に関する推論:補足的知識の利点を探る
- Authors: Violetta Shevchenko, Damien Teney, Anthony Dick, Anton van den Hengel
- Abstract要約: 本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
- 参考スコア(独自算出の注目度): 59.87823082513752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The limits of applicability of vision-and-language models are defined by the
coverage of their training data. Tasks like vision question answering (VQA)
often require commonsense and factual information beyond what can be learned
from task-specific datasets. This paper investigates the injection of knowledge
from general-purpose knowledge bases (KBs) into vision-and-language
transformers. We use an auxiliary training objective that encourages the
learned representations to align with graph embeddings of matching entities in
a KB. We empirically study the relevance of various KBs to multiple tasks and
benchmarks. The technique brings clear benefits to knowledge-demanding question
answering tasks (OK-VQA, FVQA) by capturing semantic and relational knowledge
absent from existing models. More surprisingly, the technique also benefits
visual reasoning tasks (NLVR2, SNLI-VE). We perform probing experiments and
show that the injection of additional knowledge regularizes the space of
embeddings, which improves the representation of lexical and semantic
similarities. The technique is model-agnostic and can expand the applicability
of any vision-and-language transformer with minimal computational overhead.
- Abstract(参考訳): 視覚・言語モデルの適用可能性の限界は、トレーニングデータのカバレッジによって定義される。
視覚質問応答(VQA)のようなタスクは、タスク固有のデータセットから何が学べるかを超えて、常識と事実の情報を必要とすることが多い。
本稿では、汎用知識ベース(KB)から視覚・言語変換器への知識注入について検討する。
我々は,学習表現を補助的な学習目標として,kb 内のマッチングエンティティのグラフ埋め込みと整合させる。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術は、既存のモデルにない意味的知識と関係的知識をキャプチャすることで、知識要求型質問応答タスク(OK-VQA、FVQA)に明確な利点をもたらす。
さらに驚くべきことに、この技術は視覚的推論タスク(NLVR2、SNLI-VE)にも役立つ。
探索実験を行い,追加知識の注入が埋め込み空間を定式化し,語彙的および意味的類似性の表現を改善することを示す。
この技術はモデルに依存しず、最小の計算オーバーヘッドを持つ任意の視覚・言語変換器の適用性を拡張することができる。
関連論文リスト
- XCoOp: Explainable Prompt Learning for Computer-Aided Diagnosis via Concept-guided Context Optimization [4.634780391920529]
本稿では,画像,学習可能なプロンプト,臨床概念に基づくプロンプトのセマンティクスを整合させることにより,医療知識を活用する新しい説明可能なプロンプト学習フレームワークを提案する。
我々のフレームワークは、大きな言語モデルから知識を引き出すことによって、価値ある概念アノテーションの欠如に対処する。
提案手法は,XAIにおける基礎モデルの有効性に光を当て,優れた診断性能,柔軟性,解釈可能性を実現する。
論文 参考訳(メタデータ) (2024-03-14T14:02:01Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - VIPHY: Probing "Visible" Physical Commonsense Knowledge [22.00069189468524]
視覚言語モデル(VLM)は視覚的推論タスクにおいて顕著な性能を示した。
視覚的」身体的知識を習得する能力を評価する。
以上の結果から,モデルと人的パフォーマンスの間には深刻なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2022-09-15T02:06:25Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Improving and Diagnosing Knowledge-Based Visual Question Answering via
Entity Enhanced Knowledge Injection [14.678153928301493]
KBVQA (Knowledge-Based Visual Question Answering) は、テキスト質問と関連する画像に正しく答えるために、外部世界の知識を必要とするバイモーダルタスクである。
最近のシングルテキストワークでは、事前訓練された言語モデル、特にエンティティ強化知識グラフの埋め込みへの知識注入が、下流のエンティティ中心のタスクのパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2021-12-13T18:45:42Z) - External Knowledge Augmented Text Visual Question Answering [0.6445605125467573]
本稿では,視覚言語理解タスクのための標準マルチモーダルトランスフォーマー上で知識を抽出,フィルタリング,エンコードするフレームワークを提案する。
2つの公開データセット上で、最先端のデータセットに匹敵する結果を生成する。
論文 参考訳(メタデータ) (2021-08-22T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。