論文の概要: KAT: A Knowledge Augmented Transformer for Vision-and-Language
- arxiv url: http://arxiv.org/abs/2112.08614v1
- Date: Thu, 16 Dec 2021 04:37:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 16:00:18.903926
- Title: KAT: A Knowledge Augmented Transformer for Vision-and-Language
- Title(参考訳): kat: 視覚言語のための知識拡張トランスフォーマー
- Authors: Liangke Gui, Borui Wang, Qiuyuan Huang, Alex Hauptmann, Yonatan Bisk,
Jianfeng Gao
- Abstract要約: 我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
- 参考スコア(独自算出の注目度): 56.716531169609915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primary focus of recent work with largescale transformers has been on
optimizing the amount of information packed into the model's parameters. In
this work, we ask a different question: Can multimodal transformers leverage
explicit knowledge in their reasoning? Existing, primarily unimodal, methods
have explored approaches under the paradigm of knowledge retrieval followed by
answer prediction, but leave open questions about the quality and relevance of
the retrieved knowledge used, and how the reasoning processes over implicit and
explicit knowledge should be integrated. To address these challenges, we
propose a novel model - Knowledge Augmented Transformer (KAT) - which achieves
a strong state-of-the-art result (+6 points absolute) on the open-domain
multimodal task of OK-VQA. Our approach integrates implicit and explicit
knowledge in an end to end encoder-decoder architecture, while still jointly
reasoning over both knowledge sources during answer generation. An additional
benefit of explicit knowledge integration is seen in improved interpretability
of model predictions in our analysis.
- Abstract(参考訳): 最近の大規模変圧器の研究の主な焦点は、モデルのパラメータに詰め込まれた情報量を最適化することである。
マルチモーダルトランスフォーマーは、その推論において明示的な知識を活用できますか?
既存の手法は、知識検索のパラダイムの下で、解答予測に続くアプローチを研究してきたが、得られた知識の品質と関連性、そして暗黙的かつ明示的な知識を超える推論プロセスをどのように統合すべきかについて、オープンな疑問を残している。
これらの課題に対処するために、OK-VQAのオープンドメインマルチモーダルタスク上で、強力な最先端結果(+6ポイント絶対値)を実現する新しいモデルKAT(Knowledge Augmented Transformer)を提案する。
私たちのアプローチは、エンドツーエンドエンコーダ-デコーダアーキテクチャにおいて、暗黙的および明示的な知識を統合します。
分析におけるモデル予測の解釈性の向上には,明示的な知識統合の新たなメリットが期待できる。
関連論文リスト
- Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language Models [36.56689822791777]
KBVQA (Knowledge-Based Visual Question Answering) は、外部知識と質問に答える画像を追加することで、この概念を前進させる。
本研究の主な貢献は、動的トリプル抽出法を用いて知識グラフから抽出した外部知識を組み込むことにより、質問を強化することである。
知識に富んだ我々のモデルは,3種類のKBVQAデータセット上での最先端技術よりも,Exact Match Scoreの平均4.75%向上を示す。
論文 参考訳(メタデータ) (2024-06-14T13:07:46Z) - MATTER: Memory-Augmented Transformer Using Heterogeneous Knowledge Sources [12.783393023641505]
我々は、MATTERと呼ばれる効率的なメモリ拡張変換器を導入する。
MATTERは、固定長のニューラルメモリの形で、非構造化ソース(パラグラフ)と半構造化ソース(QAペア)の両方から読み取る。
提案モデルでは,従来のQAベンチマークにおいて,精度と速度の両面で,既存の効率的な検索強化モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-07T06:35:37Z) - Towards Better Generalization in Open-Domain Question Answering by Mitigating Context Memorization [67.92796510359595]
Open-Domain Question Answering (OpenQA)は、外部の大規模知識コーパスで事実質問に答えることを目的としている。
OpenQAモデルが完全に新しい知識ドメインにどの程度うまく移行できるかは、まだ不明である。
コーパス不変チューニング(CIT: Corpus-Invariant Tuning)は,記憶過剰な知識の軽減を目的とした,シンプルで効果的なトレーニング戦略である。
論文 参考訳(メタデータ) (2024-04-02T05:44:50Z) - Structured Knowledge Grounding for Question Answering [0.23068481501673416]
本稿では,知識に基づく質問応答の柔軟性,範囲の広さ,構造的推論に言語と知識を活用することを提案する。
具体的には,動的ホップを用いて関連するコンテキストを検索する知識構築手法を考案する。
そして、言語と知識の間のボトルネックを交換する情報を橋渡しする深層融合機構を考案する。
論文 参考訳(メタデータ) (2022-09-17T08:48:50Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - Kformer: Knowledge Injection in Transformer Feed-Forward Layers [107.71576133833148]
そこで我々は,Transformerのフィードフォワード層を通じて外部知識を組み込んだ新しい知識融合モデルKformerを提案する。
FFNに単に知識を注入するだけで、事前学習された言語モデルの能力が向上し、現在の知識融合法が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-01-15T03:00:27Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Sequential Latent Knowledge Selection for Knowledge-Grounded Dialogue [51.513276162736844]
この問題に対する最初のアプローチとして,逐次潜在変数モデルを提案する。
シーケンシャル・ナレッジ・トランスフォーマー (SKT) という名前のモデルは、知識よりも先行と後続の分布を追跡することができる。
論文 参考訳(メタデータ) (2020-02-18T11:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。