Fugu-MT 論文翻訳(概要): KAT: A Knowledge Augmented Transformer for Vision-and-Language

論文の概要: KAT: A Knowledge Augmented Transformer for Vision-and-Language

arxiv url: http://arxiv.org/abs/2112.08614v1
Date: Thu, 16 Dec 2021 04:37:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-17 16:00:18.903926
Title: KAT: A Knowledge Augmented Transformer for Vision-and-Language
Title（参考訳）: kat: 視覚言語のための知識拡張トランスフォーマー
Authors: Liangke Gui, Borui Wang, Qiuyuan Huang, Alex Hauptmann, Yonatan Bisk, Jianfeng Gao
Abstract要約: 我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
参考スコア（独自算出の注目度）: 56.716531169609915
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The primary focus of recent work with largescale transformers has been on optimizing the amount of information packed into the model's parameters. In this work, we ask a different question: Can multimodal transformers leverage explicit knowledge in their reasoning? Existing, primarily unimodal, methods have explored approaches under the paradigm of knowledge retrieval followed by answer prediction, but leave open questions about the quality and relevance of the retrieved knowledge used, and how the reasoning processes over implicit and explicit knowledge should be integrated. To address these challenges, we propose a novel model - Knowledge Augmented Transformer (KAT) - which achieves a strong state-of-the-art result (+6 points absolute) on the open-domain multimodal task of OK-VQA. Our approach integrates implicit and explicit knowledge in an end to end encoder-decoder architecture, while still jointly reasoning over both knowledge sources during answer generation. An additional benefit of explicit knowledge integration is seen in improved interpretability of model predictions in our analysis.
Abstract（参考訳）: 最近の大規模変圧器の研究の主な焦点は、モデルのパラメータに詰め込まれた情報量を最適化することである。マルチモーダルトランスフォーマーは、その推論において明示的な知識を活用できますか? 既存の手法は、知識検索のパラダイムの下で、解答予測に続くアプローチを研究してきたが、得られた知識の品質と関連性、そして暗黙的かつ明示的な知識を超える推論プロセスをどのように統合すべきかについて、オープンな疑問を残している。これらの課題に対処するために、OK-VQAのオープンドメインマルチモーダルタスク上で、強力な最先端結果(+6ポイント絶対値)を実現する新しいモデルKAT(Knowledge Augmented Transformer)を提案する。私たちのアプローチは、エンドツーエンドエンコーダ-デコーダアーキテクチャにおいて、暗黙的および明示的な知識を統合します。分析におけるモデル予測の解釈性の向上には,明示的な知識統合の新たなメリットが期待できる。

関連論文リスト

PropMEND: Hypernetworks for Knowledge Propagation in LLMs [82.99849359892112]
本稿では,PropMENDという,ハイパーネットワークに基づく知識伝播手法を提案する。インジェクションされた事実に回答が明記されていないマルチホップ質問に対して,ほぼ2倍の精度で回答を提示する。我々はまた、ハイパーネットワークの一般化を評価するために、新しいデータセットである Controlled RippleEdit も導入した。
論文参考訳（メタデータ） (2025-06-10T15:44:19Z)
Open-Ended and Knowledge-Intensive Video Question Answering [20.256081440725353]
知識集約型ビデオ質問応答 (KI-VideoQA) を多モード検索拡張世代のレンズを用いて検討する。本稿では,最先端の検索モデルと視覚言語モデルを用いて,様々な検索拡張手法について検討する。我々は、KnowIT VQAデータセットにおいて、複数の選択質問に対する精度を17.5%向上させる。
論文参考訳（メタデータ） (2025-02-17T12:40:35Z)
Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language Models [36.56689822791777]
KBVQA (Knowledge-Based Visual Question Answering) は、外部知識と質問に答える画像を追加することで、この概念を前進させる。本研究の主な貢献は、動的トリプル抽出法を用いて知識グラフから抽出した外部知識を組み込むことにより、質問を強化することである。知識に富んだ我々のモデルは,3種類のKBVQAデータセット上での最先端技術よりも,Exact Match Scoreの平均4.75%向上を示す。
論文参考訳（メタデータ） (2024-06-14T13:07:46Z)
MATTER: Memory-Augmented Transformer Using Heterogeneous Knowledge Sources [12.783393023641505]
我々は、MATTERと呼ばれる効率的なメモリ拡張変換器を導入する。 MATTERは、固定長のニューラルメモリの形で、非構造化ソース(パラグラフ)と半構造化ソース(QAペア)の両方から読み取る。提案モデルでは,従来のQAベンチマークにおいて,精度と速度の両面で,既存の効率的な検索強化モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-07T06:35:37Z)
Towards Better Generalization in Open-Domain Question Answering by Mitigating Context Memorization [67.92796510359595]
Open-Domain Question Answering (OpenQA)は、外部の大規模知識コーパスで事実質問に答えることを目的としている。 OpenQAモデルが完全に新しい知識ドメインにどの程度うまく移行できるかは、まだ不明である。コーパス不変チューニング(CIT: Corpus-Invariant Tuning)は,記憶過剰な知識の軽減を目的とした,シンプルで効果的なトレーニング戦略である。
論文参考訳（メタデータ） (2024-04-02T05:44:50Z)
Structured Knowledge Grounding for Question Answering [0.23068481501673416]
本稿では,知識に基づく質問応答の柔軟性,範囲の広さ,構造的推論に言語と知識を活用することを提案する。具体的には,動的ホップを用いて関連するコンテキストを検索する知識構築手法を考案する。そして、言語と知識の間のボトルネックを交換する情報を橋渡しする深層融合機構を考案する。
論文参考訳（メタデータ） (2022-09-17T08:48:50Z)
A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文参考訳（メタデータ） (2022-06-30T02:35:04Z)
Kformer: Knowledge Injection in Transformer Feed-Forward Layers [107.71576133833148]
そこで我々は,Transformerのフィードフォワード層を通じて外部知識を組み込んだ新しい知識融合モデルKformerを提案する。 FFNに単に知識を注入するだけで、事前学習された言語モデルの能力が向上し、現在の知識融合法が促進されることを実証的に見出した。
論文参考訳（メタデータ） (2022-01-15T03:00:27Z)
KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。知識表現と推論には2つのタイプがあります。まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文参考訳（メタデータ） (2020-12-20T20:13:02Z)
Sequential Latent Knowledge Selection for Knowledge-Grounded Dialogue [51.513276162736844]
この問題に対する最初のアプローチとして,逐次潜在変数モデルを提案する。シーケンシャル・ナレッジ・トランスフォーマー (SKT) という名前のモデルは、知識よりも先行と後続の分布を追跡することができる。
論文参考訳（メタデータ） (2020-02-18T11:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。