論文の概要: On the Effectiveness of Integration Methods for Multimodal Dialogue Response Retrieval
- arxiv url: http://arxiv.org/abs/2506.11499v1
- Date: Fri, 13 Jun 2025 06:50:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.680509
- Title: On the Effectiveness of Integration Methods for Multimodal Dialogue Response Retrieval
- Title(参考訳): 多モード対話応答検索における統合手法の有効性について
- Authors: Seongbo Jang, Seonghyeon Lee, Dongha Lee, Hwanjo Yu,
- Abstract要約: 本研究は,対話システムがテキストや画像などの様々なモードで応答を出力する方法を考察する。
本稿では,2段階のアプローチとエンドツーエンドのアプローチに基づく3つの統合手法を提案する。
- 参考スコア(独自算出の注目度): 27.84217171879445
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal chatbots have become one of the major topics for dialogue systems in both research community and industry. Recently, researchers have shed light on the multimodality of responses as well as dialogue contexts. This work explores how a dialogue system can output responses in various modalities such as text and image. To this end, we first formulate a multimodal dialogue response retrieval task for retrieval-based systems as the combination of three subtasks. We then propose three integration methods based on a two-step approach and an end-to-end approach, and compare the merits and demerits of each method. Experimental results on two datasets demonstrate that the end-to-end approach achieves comparable performance without an intermediate step in the two-step approach. In addition, a parameter sharing strategy not only reduces the number of parameters but also boosts performance by transferring knowledge across the subtasks and the modalities.
- Abstract(参考訳): マルチモーダルチャットボットは、研究コミュニティと産業の両方において、対話システムの主要なトピックの1つとなっている。
近年、研究者は対話の文脈だけでなく、応答の多様性にも光を当てている。
本研究は,対話システムがテキストや画像などの様々なモードで応答を出力する方法を考察する。
この目的のために,まず3つのサブタスクの組み合わせとして,検索ベースシステムに対するマルチモーダル対話応答検索タスクを定式化する。
次に、2段階のアプローチとエンドツーエンドのアプローチに基づく3つの統合手法を提案し、各手法のメリットとデメリットを比較した。
2つのデータセットの実験結果から、エンド・ツー・エンドのアプローチは、2段階のアプローチの中間ステップなしで同等のパフォーマンスを達成することが示された。
さらに,パラメータ共有戦略はパラメータ数を減少させるだけでなく,サブタスクやモダリティ間で知識を伝達することで性能を向上させる。
関連論文リスト
- DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - DialogUSR: Complex Dialogue Utterance Splitting and Reformulation for
Multiple Intent Detection [27.787807111516706]
専用マルチインテリジェント検出モデルをトレーニングする代わりに,DialogUSRを提案する。
DialogUSRは、マルチインテントユーザクエリを複数の単一インテントサブクエリに分割する。
その後、サブクエリ内のすべてのコアフェールと省略された情報を復元する。
論文 参考訳(メタデータ) (2022-10-20T13:56:35Z) - Duplex Conversation: Towards Human-like Interaction in Spoken Dialogue
System [120.70726465994781]
マルチモーダル音声対話システムにより、電話ベースのエージェントが、人間のような顧客と対話できる。
製品で学んだ教訓を共有するために、Conversation Duplex Alibabaのインテリジェントなカスタマサービスをデプロイしています。
オンラインA/B実験は,提案システムにおいて応答遅延を50%低減できることを示した。
論文 参考訳(メタデータ) (2022-05-30T12:41:23Z) - Two-Level Supervised Contrastive Learning for Response Selection in
Multi-Turn Dialogue [18.668723854662584]
本稿では,教師付きコントラスト損失を用いたコントラスト学習を課題に適用する。
我々は,2段階の教師付きコントラスト学習と呼ばれる,教師付きコントラスト学習の新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-01T23:43:36Z) - Retrieve & Memorize: Dialog Policy Learning with Multi-Action Memory [13.469140432108151]
本稿では,システム行動の学習を促進するための検索・記憶フレームワークを提案する。
メモリ拡張型マルチデコーダネットワークを用いて、候補動作に条件付きシステム動作を生成する。
本手法は,コンテキスト・ツー・レスポンス生成タスクにおける最先端モデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-04T07:53:56Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。