論文の概要: Distilling Implicit Multimodal Knowledge into LLMs for Zero-Resource Dialogue Generation
- arxiv url: http://arxiv.org/abs/2405.10121v1
- Date: Thu, 16 May 2024 14:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 14:02:34.230852
- Title: Distilling Implicit Multimodal Knowledge into LLMs for Zero-Resource Dialogue Generation
- Title(参考訳): ゼロソース対話生成のためのLLMへの暗黙のマルチモーダル知識の蒸留
- Authors: Bo Zhang, Hui Ma, Jian Ding, Jian Wang, Bo Xu, Hongfei Lin,
- Abstract要約: ゼロリソースコンテキストにおけるリッチな対話生成のための視覚的暗黙的知識蒸留フレームワーク(VIKDF)を提案する。
VIKDFは、知識蒸留と知識統合の2つの主要な段階で構成されている。
実験の結果,VIKDFは,高品質な対話を生成する上で,既存の最先端モデルよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 22.606764428110566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating multimodal knowledge into large language models (LLMs) represents a significant advancement in dialogue generation capabilities. However, the effective incorporation of such knowledge in zero-resource scenarios remains a substantial challenge due to the scarcity of diverse, high-quality dialogue datasets. To address this, we propose the Visual Implicit Knowledge Distillation Framework (VIKDF), an innovative approach aimed at enhancing LLMs for enriched dialogue generation in zero-resource contexts by leveraging implicit multimodal knowledge. VIKDF comprises two main stages: knowledge distillation, using an Implicit Query Transformer to extract and encode visual implicit knowledge from image-text pairs into knowledge vectors; and knowledge integration, employing a novel Bidirectional Variational Information Fusion technique to seamlessly integrate these distilled vectors into LLMs. This enables the LLMs to generate dialogues that are not only coherent and engaging but also exhibit a deep understanding of the context through implicit multimodal cues, effectively overcoming the limitations of zero-resource scenarios. Our extensive experimentation across two dialogue datasets shows that VIKDF outperforms existing state-of-the-art models in generating high-quality dialogues. The code will be publicly available following acceptance.
- Abstract(参考訳): マルチモーダル知識を大規模言語モデル(LLM)に統合することは、対話生成能力の大幅な進歩を示す。
しかし、このような知識をゼロリソースシナリオに効果的に組み込むことは、多種多様な高品質な対話データセットが不足しているため、依然として大きな課題である。
これを解決するために,暗黙のマルチモーダル知識を活用することで,ゼロリソース環境下での対話生成のためのLLMの拡張を目的とした,革新的な手法であるVisual Implicit Knowledge Distillation Framework (VIKDF)を提案する。
VIKDFは、インプリシットクエリ変換器を用いて、画像テキストペアから視覚的暗黙的知識を抽出し、知識ベクトルにエンコードする知識蒸留と、新しい双方向変分情報融合技術を用いて、これらの蒸留されたベクトルをLLMにシームレスに統合する知識統合である。
これによりLLMは、一貫性とエンゲージメントだけでなく、暗黙のマルチモーダルキューを通じてコンテキストの深い理解を示す対話を生成することができ、事実上ゼロリソースシナリオの制限を克服することができる。
2つの対話データセットにわたる広範な実験により、VIKDFは、高品質な対話を生成する上で、既存の最先端モデルよりも優れていることが示された。
コードは受理後、公開されている。
関連論文リスト
- Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs [39.54891426369773]
外部知識を必要とする疑問に答える能力を備えたモデルの提供に注力する。
我々のアプローチはWiki-LLaVAと呼ばれ、マルチモーダル文書の外部知識ソースを統合することを目的としている。
我々は,外部データによる視覚的質問応答に適したデータセットについて広範な実験を行い,その妥当性を実証する。
論文 参考訳(メタデータ) (2024-04-23T18:00:09Z) - FakeNewsGPT4: Advancing Multimodal Fake News Detection through
Knowledge-Augmented LVLMs [50.13829380113614]
本稿では,大規模視覚言語モデル(Large Vision-Language Models)を,操作推論のためのフォージェリ固有の知識で拡張する新しいフレームワークを提案する。
FakeNewsGPT4は、以前の方法よりも優れたクロスドメインパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-04T12:35:09Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - Multimodal Dialog Systems with Dual Knowledge-enhanced Generative Pretrained Language Model [63.461030694700014]
マルチモーダルなタスク指向対話システム(DKMD)のための新しい二元的知識強化型事前学習言語モデルを提案する。
提案したDKMDは,2つの知識選択,2つの知識強調型文脈学習,知識強調型応答生成という3つの重要なコンポーネントから構成される。
パブリックデータセットの実験は、最先端の競合相手よりも提案されたDKMDの優位性を検証する。
論文 参考訳(メタデータ) (2022-07-16T13:02:54Z) - Knowledge Augmented BERT Mutual Network in Multi-turn Spoken Dialogues [6.4144180888492075]
本稿では,2つのSLUタスク間の対話コンテキストを相互に活用するために,BERTベースのジョイントモデルとナレッジアテンションモジュールを備えることを提案する。
さらにゲーティング機構を利用して、無関係な知識三重項をフィルタリングし、気を散らす理解を回避する。
2つの複雑なマルチターン対話データセットの実験的結果は、2つのSLUタスクをフィルター付き知識と対話コンテキストで相互にモデル化することで実証された。
論文 参考訳(メタデータ) (2022-02-23T04:03:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。