論文の概要: ZRIGF: An Innovative Multimodal Framework for Zero-Resource
Image-Grounded Dialogue Generation
- arxiv url: http://arxiv.org/abs/2308.00400v1
- Date: Tue, 1 Aug 2023 09:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 14:39:56.559133
- Title: ZRIGF: An Innovative Multimodal Framework for Zero-Resource
Image-Grounded Dialogue Generation
- Title(参考訳): zrigf:ゼロリソースイメージ・グラウンド対話生成のための革新的なマルチモーダルフレームワーク
- Authors: Bo Zhang, Jian Wang, Hui Ma, Bo Xu, and Hongfei Lin
- Abstract要約: ZRIGFは2段階の学習戦略を実装し、対照的な事前学習と生成的事前学習を含む。
テキストベースと画像グラウンドの対話データセットを用いた総合的な実験は、ZRIGFが文脈的に関連する情報的応答を生成するのに有効であることを示す。
- 参考スコア(独自算出の注目度): 17.310200022696016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-grounded dialogue systems benefit greatly from integrating visual
information, resulting in high-quality response generation. However, current
models struggle to effectively utilize such information in zero-resource
scenarios, mainly due to the disparity between image and text modalities. To
overcome this challenge, we propose an innovative multimodal framework, called
ZRIGF, which assimilates image-grounded information for dialogue generation in
zero-resource situations. ZRIGF implements a two-stage learning strategy,
comprising contrastive pre-training and generative pre-training. Contrastive
pre-training includes a text-image matching module that maps images and texts
into a unified encoded vector space, along with a text-assisted masked image
modeling module that preserves pre-training visual features and fosters further
multimodal feature alignment. Generative pre-training employs a multimodal
fusion module and an information transfer module to produce insightful
responses based on harmonized multimodal representations. Comprehensive
experiments conducted on both text-based and image-grounded dialogue datasets
demonstrate ZRIGF's efficacy in generating contextually pertinent and
informative responses. Furthermore, we adopt a fully zero-resource scenario in
the image-grounded dialogue dataset to demonstrate our framework's robust
generalization capabilities in novel domains. The code is available at
https://github.com/zhangbo-nlp/ZRIGF.
- Abstract(参考訳): 画像に基づく対話システムは,視覚情報の統合により,高品質な応答生成を実現した。
しかし、現在のモデルは、画像とテキストのモダリティの相違が主な原因で、ゼロリソースのシナリオでそのような情報を効果的に活用するのに苦労している。
この課題を克服するために、ゼロリソース環境での対話生成のための画像基底情報を同化するZRIGFと呼ばれる革新的なマルチモーダルフレームワークを提案する。
ZRIGFは2段階の学習戦略を実装し、対照的な事前学習と生成的事前学習を含む。
コントラストプレトレーニングには、画像とテキストを統一された符号化ベクトル空間にマッピングするテキスト画像マッチングモジュールと、事前トレーニングされた視覚的特徴を保存し、さらにマルチモーダルな機能アライメントを促進するテキスト支援マスク画像モデリングモジュールが含まれている。
生成事前学習では、マルチモーダル融合モジュールと情報伝達モジュールを用いて、調和したマルチモーダル表現に基づく洞察豊かな応答を生成する。
テキストベースと画像グラウンドの対話データセットを用いた総合的な実験は、ZRIGFが文脈的に関連する情報的応答を生成するのに有効であることを示す。
さらに,イメージ接地対話データセットに完全ゼロリソースシナリオを適用し,新たなドメインにおけるフレームワークの堅牢な一般化能力を示す。
コードはhttps://github.com/zhangbo-nlp/ZRIGFで入手できる。
関連論文リスト
- BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation [21.052101309555464]
MDRG(Multimodal Dialogue Response Generation)は、テキスト、画像、あるいは両方で応答を生成する必要があるタスクである。
これまでの作業は、エンドツーエンドアプローチを採用するのではなく、モデルのイメージ入力と出力の両方の中間ステップとして、テキストのモダリティに依存していた。
本稿では、画像コンテンツに対するテキスト応答の関連性を高めるために、画像履歴情報を活用できるように、応答生成経路をブリッジするBI-MDRGを提案する。
論文 参考訳(メタデータ) (2024-08-12T05:22:42Z) - Advanced Multimodal Deep Learning Architecture for Image-Text Matching [33.8315200009152]
画像テキストマッチングは、画像とテキスト間の意味的関連をマッチング関係としてモデル化することを目的とした、重要なマルチモーダルタスクである。
本稿では、視覚情報のための深層ニューラルネットワークの高レベル抽象表現能力と、テキスト意味理解のための自然言語処理モデルの利点を組み合わせた高度なマルチモーダルディープラーニングアーキテクチャを提案する。
実験の結果、既存の画像テキストマッチングモデルと比較して、最適化された新しいモデルは一連のベンチマークデータセットの性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-13T08:32:24Z) - Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets [29.737965533532577]
Multimodal Augmented Generative Images Dialogues (MAGID) はテキストのみの対話を多種多様な高品質の画像で拡張するためのフレームワークである。
その結果,MAGIDはベースラインと同等かそれ以上であり,人体評価の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-03-05T18:31:28Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion [36.06457895469353]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。
テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文 参考訳(メタデータ) (2024-01-24T11:36:44Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。