論文の概要: Generative Multi-Modal Knowledge Retrieval with Large Language Models
- arxiv url: http://arxiv.org/abs/2401.08206v1
- Date: Tue, 16 Jan 2024 08:44:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 14:35:23.764073
- Title: Generative Multi-Modal Knowledge Retrieval with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた生成型マルチモーダル知識検索
- Authors: Xinwei Long, Jiali Zeng, Fandong Meng, Zhiyuan Ma, Kaiyan Zhang, Bowen
Zhou, Jie Zhou
- Abstract要約: マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
- 参考スコア(独自算出の注目度): 75.70313858231833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge retrieval with multi-modal queries plays a crucial role in
supporting knowledge-intensive multi-modal applications. However, existing
methods face challenges in terms of their effectiveness and training
efficiency, especially when it comes to training and integrating multiple
retrievers to handle multi-modal queries. In this paper, we propose an
innovative end-to-end generative framework for multi-modal knowledge retrieval.
Our framework takes advantage of the fact that large language models (LLMs) can
effectively serve as virtual knowledge bases, even when trained with limited
data. We retrieve knowledge via a two-step process: 1) generating knowledge
clues related to the queries, and 2) obtaining the relevant document by
searching databases using the knowledge clue. In particular, we first introduce
an object-aware prefix-tuning technique to guide multi-grained visual learning.
Then, we align multi-grained visual features into the textual feature space of
the LLM, employing the LLM to capture cross-modal interactions. Subsequently,
we construct instruction data with a unified format for model training.
Finally, we propose the knowledge-guided generation strategy to impose prior
constraints in the decoding steps, thereby promoting the generation of
distinctive knowledge clues. Through experiments conducted on three benchmarks,
we demonstrate significant improvements ranging from 3.0% to 14.6% across all
evaluation metrics when compared to strong baselines.
- Abstract(参考訳): マルチモーダルクエリによる知識検索は、知識集約型マルチモーダルアプリケーションをサポートする上で重要な役割を果たす。
しかしながら、既存の手法では、特にマルチモーダルクエリを処理するための複数のレトリバーのトレーニングと統合に関して、その有効性とトレーニング効率の面で課題に直面している。
本稿では,マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,限られたデータで訓練しても,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
2段階のプロセスで知識を取得する。
1)クエリに関する知識の手がかりを生成して,
2)知識情報を用いてデータベースを検索して関連文書を取得する。
特に,多粒度視覚学習を誘導するオブジェクト認識プレフィックスチューニング手法について紹介する。
次に,LLMのテキスト特徴空間に多粒度視覚特徴を配置し,LLMを用いてモーダル間相互作用を捉える。
その後、モデルトレーニングのための統一フォーマットで命令データを構築する。
最後に,デコードステップに事前制約を課すための知識誘導生成戦略を提案する。
3つのベンチマークで行った実験により、強いベースラインと比較して、すべての評価指標において3.0%から14.6%の大幅な改善が示された。
関連論文リスト
- Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Semi-Structured Chain-of-Thought: Integrating Multiple Sources of
Knowledge for Improved Language Model Reasoning [11.841533619094506]
本稿では,テキスト文書からの非構造化知識と知識グラフからの構造化知識とをシームレスに統合する,新しい半構造化プロンプト手法を提案する。
オープンドメイン型マルチホップ質問応答データセットの実験結果から,提案手法が既存の手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2023-11-14T19:53:53Z) - Retrieval-Generation Synergy Augmented Large Language Models [30.53260173572783]
本稿では,反復的な検索・生成協調フレームワークを提案する。
シングルホップQAとマルチホップQAタスクを含む4つの質問応答データセットの実験を行った。
論文 参考訳(メタデータ) (2023-10-08T12:50:57Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Multimodality Representation Learning: A Survey on Evolution,
Pretraining and Its Applications [47.501121601856795]
マルチモダリティ表現学習は、異なるモダリティとそれらの相関から情報を埋め込む学習手法である。
異なるモダリティからのクロスモーダル相互作用と補完情報は、高度なモデルが任意のマルチモーダルタスクを実行するために不可欠である。
本調査では,深層学習型マルチモーダルアーキテクチャの進化と拡張に関する文献を報告する。
論文 参考訳(メタデータ) (2023-02-01T11:48:34Z) - Multimodal Dialog Systems with Dual Knowledge-enhanced Generative
Pretrained Language Model [52.209876738711664]
マルチモーダルなタスク指向対話システム(DKMD)のための新しい二元的知識強化型事前学習言語モデルを提案する。
提案したDKMDは,2つの知識選択,2つの知識強調型文脈学習,知識強調型応答生成という3つの重要なコンポーネントから構成される。
パブリックデータセットの実験は、最先端の競合相手よりも提案されたDKMDの優位性を検証する。
論文 参考訳(メタデータ) (2022-07-16T13:02:54Z) - A Unified Continuous Learning Framework for Multi-modal Knowledge
Discovery and Pre-training [73.7507857547549]
本稿では,継続的学習フレームワークにおける知識発見とマルチモーダル事前学習の統合を提案する。
知識発見のために、事前訓練されたモデルを用いてグラフ上のクロスモーダルリンクを識別する。
モデル事前トレーニングでは、モデル更新をガイドする外部知識として知識グラフが使用される。
論文 参考訳(メタデータ) (2022-06-11T16:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。