論文の概要: PaCE: Unified Multi-modal Dialogue Pre-training with Progressive and
Compositional Experts
- arxiv url: http://arxiv.org/abs/2305.14839v2
- Date: Tue, 13 Jun 2023 06:31:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 17:08:30.490891
- Title: PaCE: Unified Multi-modal Dialogue Pre-training with Progressive and
Compositional Experts
- Title(参考訳): PaCE: プログレッシブ・コンポジションエキスパートによるマルチモーダル対話事前学習
- Authors: Yunshui Li, Binyuan Hui, ZhiChao Yin, Min Yang, Fei Huang and Yongbin
Li
- Abstract要約: 本稿では,構造化された多モーダル対話事前学習フレームワークである textbfPaCE を提案する。
複数の対話関連タスクに対応するために、いくつかの基本的な専門家を組み合わせており、限られた対話と広範な非対話マルチモーダルデータを用いて事前訓練することができる。
実験の結果,PaCEは8つのマルチモーダルダイアログベンチマークで最先端の結果を得ることができた。
- 参考スコア(独自算出の注目度): 45.69829921539995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perceiving multi-modal information and fulfilling dialogues with humans is a
long-term goal of artificial intelligence. Pre-training is commonly regarded as
an effective approach for multi-modal dialogue. However, due to the limited
availability of multi-modal dialogue data, there is still scarce research on
multi-modal dialogue pre-training. Yet another intriguing challenge emerges
from the encompassing nature of multi-modal dialogue, which involves various
modalities and tasks. Moreover, new forms of tasks may arise at unpredictable
points in the future. Hence, it is essential for designed multi-modal dialogue
models to possess sufficient flexibility to adapt to such scenarios. This paper
proposes \textbf{PaCE}, a unified, structured, compositional multi-modal
dialogue pre-training framework. It utilizes a combination of several
fundamental experts to accommodate multiple dialogue-related tasks and can be
pre-trained using limited dialogue and extensive non-dialogue multi-modal data.
Furthermore, we propose a progressive training method where old experts from
the past can assist new experts, facilitating the expansion of their
capabilities. Experimental results demonstrate that PaCE achieves
state-of-the-art results on eight multi-modal dialog benchmarks.
- Abstract(参考訳): マルチモーダル情報の知覚と人間との対話の実現は、人工知能の長期的な目標である。
プレトレーニングは、一般的にマルチモーダル対話の効果的なアプローチと見なされる。
しかし、マルチモーダル対話データの入手が限られているため、マルチモーダル対話事前学習に関する研究はいまだに少ない。
しかし、他の興味深い課題は、様々なモダリティやタスクを含むマルチモーダル対話の包含性から生まれる。
さらに、新しいタスクの形式は、将来予測不可能なポイントで生まれる可能性がある。
したがって,マルチモーダル対話モデルでは,このようなシナリオに十分な柔軟性を持たせることが不可欠である。
本稿では,統一的,構造化,構成的多モーダル対話事前学習フレームワークである \textbf{pace} を提案する。
複数の対話関連タスクに対応するために、いくつかの基本的な専門家を組み合わせており、限られた対話と広範な非対話マルチモーダルデータを用いて事前訓練することができる。
さらに,過去の古参の専門家が,その能力拡大を促進するために,新しい専門家を支援できるプログレッシブトレーニング手法を提案する。
実験の結果,PaCEは8つのマルチモーダルダイアログベンチマークで最先端の結果を得ることができた。
関連論文リスト
- DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Multimodal Dialogue Response Generation [27.611204319057393]
本稿では,対話履歴を入力とし,テキストシーケンスや画像を応答として生成するマルチモーダル対話生成モデルを提案する。
我々は、限られた訓練例しか利用できないという自然な仮定の下で、マルチモーダルな対話生成を考える。
このような低リソース環境では、モデル全体の多モーダル対話に依存するパラメータを分離するために、新しい対話エージェントであるDivterを考案する。
論文 参考訳(メタデータ) (2021-10-16T08:52:26Z) - Advances in Multi-turn Dialogue Comprehension: A Survey [51.215629336320305]
自然言語を理解し、人間と対話するための訓練機械は、人工知能の解明と本質的なタスクである。
本稿では,対話理解タスクにおける対話モデリングの技術的視点から,過去の手法を概観する。
さらに,対話シナリオにおけるPrLMの強化に使用される対話関連事前学習手法を分類する。
論文 参考訳(メタデータ) (2021-10-11T03:52:37Z) - DialogLM: Pre-trained Model for Long Dialogue Understanding and
Summarization [19.918194137007653]
本稿では,長い対話理解と要約のための事前学習フレームワークを提案する。
長い会話の性質を考慮し、生成前学習のためのウィンドウベースの認知的アプローチを提案する。
我々は,対話要約,抽象的質問応答,トピックセグメンテーションのタスクをカバーする,長文対話の5つのデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-09-06T13:55:03Z) - Dialogue-oriented Pre-training [70.03028879331339]
一般的なプレーンテキスト上での会話特徴をシミュレートする3つの手法を提案する。
Dialog-PrLMは3つの公開マルチターン対話データセットに基づいて微調整される。
論文 参考訳(メタデータ) (2021-06-01T12:02:46Z) - Emora STDM: A Versatile Framework for Innovative Dialogue System
Development [17.14709845342071]
Emora STDMは、チャットベースの対話マネージャの迅速なプロトタイピングのための斬新な対話システム開発フレームワークである。
我々のフレームワークは、状態マシンと情報状態という2つの一般的なアプローチと対話管理との相互運用性をサポートすることで、幅広い専門レベルに到達します。
論文 参考訳(メタデータ) (2020-06-11T01:31:17Z) - Masking Orchestration: Multi-task Pretraining for Multi-role Dialogue
Representation Learning [50.5572111079898]
マルチロール対話理解は、質問応答、行動分類、対話要約など、幅広い多様なタスクを含む。
対話コーパスは豊富に利用可能であるが、特定の学習タスクのためのラベル付きデータは非常に不足しており、高価である。
本研究では,教師なし事前学習タスクを用いた対話文脈表現学習について検討する。
論文 参考訳(メタデータ) (2020-02-27T04:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。