Fugu-MT 論文翻訳(概要): BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation

論文の概要: BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation

arxiv url: http://arxiv.org/abs/2408.05926v1
Date: Mon, 12 Aug 2024 05:22:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-13 14:45:05.049620
Title: BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation
Title（参考訳）: BI-MDRG:多モード対話応答生成におけるブリッジング画像履歴
Authors: Hee Suk Yoon, Eunseop Yoon, Joshua Tian Jin Tee, Kang Zhang, Yu-Jung Heo, Du-Seong Chang, Chang D. Yoo,
Abstract要約: MDRG(Multimodal Dialogue Response Generation)は、テキスト、画像、あるいは両方で応答を生成する必要があるタスクである。これまでの作業は、エンドツーエンドアプローチを採用するのではなく、モデルのイメージ入力と出力の両方の中間ステップとして、テキストのモダリティに依存していた。本稿では、画像コンテンツに対するテキスト応答の関連性を高めるために、画像履歴情報を活用できるように、応答生成経路をブリッジするBI-MDRGを提案する。
参考スコア（独自算出の注目度）: 21.052101309555464
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Dialogue Response Generation (MDRG) is a recently proposed task where the model needs to generate responses in texts, images, or a blend of both based on the dialogue context. Due to the lack of a large-scale dataset specifically for this task and the benefits of leveraging powerful pre-trained models, previous work relies on the text modality as an intermediary step for both the image input and output of the model rather than adopting an end-to-end approach. However, this approach can overlook crucial information about the image, hindering 1) image-grounded text response and 2) consistency of objects in the image response. In this paper, we propose BI-MDRG that bridges the response generation path such that the image history information is utilized for enhanced relevance of text responses to the image content and the consistency of objects in sequential image responses. Through extensive experiments on the multimodal dialogue benchmark dataset, we show that BI-MDRG can effectively increase the quality of multimodal dialogue. Additionally, recognizing the gap in benchmark datasets for evaluating the image consistency in multimodal dialogue, we have created a curated set of 300 dialogues annotated to track object consistency across conversations.
Abstract（参考訳）: MDRG(Multimodal Dialogue Response Generation)は、対話コンテキストに基づいたテキスト、画像、あるいは両者のブレンドで応答を生成する必要があるタスクである。このタスクに特化して大規模なデータセットがないので、強力な事前訓練モデルを活用するメリットがあるため、以前の研究はエンドツーエンドアプローチを採用するのではなく、画像入力とモデルの出力の両方の中間ステップとして、テキストモダリティに依存していた。しかし、このアプローチは、画像に関する重要な情報を見落とし、妨げる可能性がある。 1)画像接地テキスト応答と 2)画像応答におけるオブジェクトの整合性。本稿では,画像内容に対するテキスト応答と連続的な画像応答におけるオブジェクトの整合性との関連性を高めるために,画像履歴情報を活用できるように,応答生成経路をブリッジするBI-MDRGを提案する。マルチモーダル対話ベンチマークデータセットの広範な実験を通して、BI-MDRGはマルチモーダル対話の質を効果的に向上させることができることを示す。さらに、マルチモーダル対話における画像整合性を評価するためのベンチマークデータセットのギャップを認識し、会話間のオブジェクト整合性を追跡するために注釈付けされた300の対話セットを作成しました。

関連論文リスト

DIR-TIR: Dialog-Iterative Refinement for Text-to-Image Retrieval [3.5092739016434567]
本フレームワークは,2つのモジュールを対象とする画像検索を段階的に改良する。 Dialog Refinerは、ユーザに対して、重要な情報を抽出し、より正確な記述を生成するよう、積極的にクエリする。 Image Refinerは生成した画像とユーザの意図のギャップを識別し、視覚と意味の相違を戦略的に低減する。
論文参考訳（メタデータ） (2025-11-18T12:45:10Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
TIGeR: Unifying Text-to-Image Generation and Retrieval with Large Multimodal Models [96.72318842152148]
1つのLMM(Large Multimodal Model)を用いたテキスト・画像生成と検索のための統合フレームワークを提案する。具体的には,LMMの本質的な識別能力について検討し,テキスト・画像検索のための効率的な生成的検索手法を提案する。次に、テキストプロンプトに対する応答として、生成画像と検索画像の間で最適なマッチング画像を選択するための自律決定機構を提案する。
論文参考訳（メタデータ） (2024-06-09T15:00:28Z)
Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach [33.231639257323536]
本稿では,対話型テキスト・画像検索タスクにおける対話型コンテキストクエリの問題に対処する。対話形式のコンテキストを再構成することにより、既存の視覚的対話データから検索モデルを微調整する必要がなくなる。対象画像の属性に関する非冗長な質問を生成するために,LLM質問機を構築した。
論文参考訳（メタデータ） (2024-06-05T16:09:01Z)
DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文参考訳（メタデータ） (2024-01-02T07:40:12Z)
IMAD: IMage-Augmented multi-modal Dialogue [0.043847653914745384]
本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。マルチモーダル対話データセットを自動構築する2段階の手法を提案する。最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
論文参考訳（メタデータ） (2023-05-17T18:38:10Z)
DialogCC: An Automated Pipeline for Creating High-Quality Multi-Modal Dialogue Dataset [18.449076451976236]
本稿では,マルチモーダル対話データセットを構築するための自動パイプラインを提案する。我々のパイプラインでは、画像と対話のコヒーレンスを保証するため、GPT-4に潜在的な画像共有モーメントを推測するよう促す。このパイプラインを通じて、高品質で多様な多モード対話データセットであるDialogCCを紹介する。
論文参考訳（メタデータ） (2022-12-08T07:29:07Z)
Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。エージェントは対話とマニュアルの両方からタスクを学習する。提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文参考訳（メタデータ） (2022-08-16T08:21:12Z)
Multimodal Dialogue Response Generation [27.611204319057393]
本稿では,対話履歴を入力とし,テキストシーケンスや画像を応答として生成するマルチモーダル対話生成モデルを提案する。我々は、限られた訓練例しか利用できないという自然な仮定の下で、マルチモーダルな対話生成を考える。このような低リソース環境では、モデル全体の多モーダル対話に依存するパラメータを分離するために、新しい対話エージェントであるDivterを考案する。
論文参考訳（メタデータ） (2021-10-16T08:52:26Z)
Constructing Multi-Modal Dialogue Dataset by Replacing Text with Semantically Relevant Images [17.076424447172297]
本稿では,人間の介入を最小限に抑えた45kマルチモーダル対話データセットを提案する。このようなデータセットを作成する方法は,(1)テキスト対話データセットの作成と前処理,(2)テキストから画像への置き換え技術による画像混合対話の作成,(3)文脈相似性に基づくフィルタリング手法を用いて構成する。
論文参考訳（メタデータ） (2021-07-19T08:44:11Z)
Dialogue History Matters! Personalized Response Selectionin Multi-turn Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。 1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文参考訳（メタデータ） (2021-03-17T09:42:11Z)
Reasoning in Dialog: Improving Response Generation by Context Reading Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文参考訳（メタデータ） (2020-12-14T10:58:01Z)
ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文参考訳（メタデータ） (2020-06-15T12:25:40Z)
Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文参考訳（メタデータ） (2020-01-17T14:57:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。