Fugu-MT 論文翻訳(概要): IMAD: IMage-Augmented multi-modal Dialogue

論文の概要: IMAD: IMage-Augmented multi-modal Dialogue

arxiv url: http://arxiv.org/abs/2305.10512v2
Date: Sat, 16 Dec 2023 10:18:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 20:54:48.232125
Title: IMAD: IMage-Augmented multi-modal Dialogue
Title（参考訳）: imad:画像提示マルチモーダル対話
Authors: Viktor Moskvoretskii, Anton Frolov, Denis Kuznetsov
Abstract要約: 本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。マルチモーダル対話データセットを自動構築する2段階の手法を提案する。最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
参考スコア（独自算出の注目度）: 0.043847653914745384
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Currently, dialogue systems have achieved high performance in processing text-based communication. However, they have not yet effectively incorporated visual information, which poses a significant challenge. Furthermore, existing models that incorporate images in dialogue generation focus on discussing the image itself. Our proposed approach presents a novel perspective on multi-modal dialogue systems, which interprets the image in the context of the dialogue. By doing so, we aim to expand the capabilities of current dialogue systems and transition them from single modality (text) to multi-modality. However, there is a lack of validated English datasets that contain both images and dialogue contexts for this task. Thus, we propose a two-stage approach to automatically construct a multi-modal dialogue dataset. In the first stage, we utilize text-to-image similarity and sentence similarity to identify which utterances could be replaced with an image. In the second stage, we replace those utterances by selecting a subset of relevant images and filtering them with a visual question answering model. We used this approach, along with additional labeling, to create the IMage Augmented multi-modal Dialogue dataset (IMAD), which can serve as a validated dataset for this task. Furthermore, we propose a baseline model trained on this dataset, which outperforms model trained on the same data without images and BlenderBot.
Abstract（参考訳）: 現在,対話システムはテキストベースの通信処理において高い性能を達成している。しかし、視覚情報を効果的に組み込んでいないため、大きな課題となっている。さらに,対話生成にイメージを取り入れた既存のモデルは,画像自体の議論に重点を置いている。提案手法は,対話の文脈でイメージを解釈するマルチモーダル対話システムにおいて,新たな視点を示す。これにより、現在の対話システムの能力を拡張し、単一のモダリティ(テキスト)からマルチモダリティへ移行することを目指している。しかし、このタスクには画像と対話コンテキストの両方を含む検証された英語データセットが欠如している。そこで本研究では,マルチモーダル対話データセットを自動構築する2段階アプローチを提案する。最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。第2段階では、関連画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。我々は、このアプローチと追加のラベル付けを使用して、画像拡張マルチモーダル対話データセット(imad: image augmented multi-modal dialogue dataset)を作成しました。さらに,このデータセットに基づいてトレーニングされたベースラインモデルを提案する。

関連論文リスト

BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation [21.052101309555464]
MDRG(Multimodal Dialogue Response Generation)は、テキスト、画像、あるいは両方で応答を生成する必要があるタスクである。これまでの作業は、エンドツーエンドアプローチを採用するのではなく、モデルのイメージ入力と出力の両方の中間ステップとして、テキストのモダリティに依存していた。本稿では、画像コンテンツに対するテキスト応答の関連性を高めるために、画像履歴情報を活用できるように、応答生成経路をブリッジするBI-MDRGを提案する。
論文参考訳（メタデータ） (2024-08-12T05:22:42Z)
MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets [29.737965533532577]
Multimodal Augmented Generative Images Dialogues (MAGID) はテキストのみの対話を多種多様な高品質の画像で拡張するためのフレームワークである。その結果,MAGIDはベースラインと同等かそれ以上であり,人体評価の大幅な改善が見られた。
論文参考訳（メタデータ） (2024-03-05T18:31:28Z)
DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文参考訳（メタデータ） (2024-01-02T07:40:12Z)
Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。 MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文参考訳（メタデータ） (2023-08-31T05:15:27Z)
DialogCC: An Automated Pipeline for Creating High-Quality Multi-Modal Dialogue Dataset [18.449076451976236]
本稿では,マルチモーダル対話データセットを構築するための自動パイプラインを提案する。我々のパイプラインでは、画像と対話のコヒーレンスを保証するため、GPT-4に潜在的な画像共有モーメントを推測するよう促す。このパイプラインを通じて、高品質で多様な多モード対話データセットであるDialogCCを紹介する。
論文参考訳（メタデータ） (2022-12-08T07:29:07Z)
Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。エージェントは対話とマニュアルの両方からタスクを学習する。提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文参考訳（メタデータ） (2022-08-16T08:21:12Z)
Constructing Multi-Modal Dialogue Dataset by Replacing Text with Semantically Relevant Images [17.076424447172297]
本稿では,人間の介入を最小限に抑えた45kマルチモーダル対話データセットを提案する。このようなデータセットを作成する方法は,(1)テキスト対話データセットの作成と前処理,(2)テキストから画像への置き換え技術による画像混合対話の作成,(3)文脈相似性に基づくフィルタリング手法を用いて構成する。
論文参考訳（メタデータ） (2021-07-19T08:44:11Z)
OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。 OpenViDialには、合計11万の対話ターンが含まれている。テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文参考訳（メタデータ） (2020-12-30T03:02:50Z)
VD-BERT: A Unified Vision and Dialog Transformer with BERT [161.0016161052714]
VD-BERTは,視覚対話型トランスフォーマーの簡易かつ効果的なフレームワークである。我々は、視覚的グラウンドトレーニングにより、視覚と対話内容の効果的な融合にBERTを適用した。我々のモデルは新たな芸術状態をもたらし、シングルモデルとアンサンブル設定の両方で最高位を達成する。
論文参考訳（メタデータ） (2020-04-28T04:08:46Z)
Paraphrase Augmented Task-Oriented Dialog Generation [68.1790912977053]
本稿では,パラフレーズモデルと応答生成モデルを協調訓練するパラフレーズ拡張応答生成(PARG)フレームワークを提案する。また、ダイアログ状態とダイアログアクトラベルに基づいて、パラフレーズトレーニングデータセットを自動構築する手法も設計する。
論文参考訳（メタデータ） (2020-04-16T05:12:36Z)
Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文参考訳（メタデータ） (2020-01-17T14:57:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。