Fugu-MT 論文翻訳(概要): Multi-Party Supervised Fine-tuning of Language Models for Multi-Party Dialogue Generation

論文の概要: Multi-Party Supervised Fine-tuning of Language Models for Multi-Party Dialogue Generation

arxiv url: http://arxiv.org/abs/2412.05342v1
Date: Fri, 06 Dec 2024 09:33:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:43.807788
Title: Multi-Party Supervised Fine-tuning of Language Models for Multi-Party Dialogue Generation
Title（参考訳）: 多人数対話生成のための言語モデルの微調整
Authors: Xiaoyu Wang, Ningyuan Xi, Teng Chen, Qingqing Gu, Yue Zhao, Xiaokai Chen, Zhonglin Jiang, Yong Chen, Luo Ji,
Abstract要約: 大規模言語モデル(LLM)は通常、ダイアディックや二者対話に参加するために微調整される。本研究では,多人数対話データセットに基づくLLMのためのマルチパーティファインチューニングフレームワーク (MuPaS) を設計する。
参考スコア（独自算出の注目度）: 11.340007143339657
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLM) are usually fine-tuned to participate in dyadic or two-party dialogues, which can not adapt well to multi-party dialogues (MPD), which hinders their applications in such scenarios including multi-personal meetings, discussions and daily communication. Previous LLM-based researches mainly focus on the multi-agent framework, while their base LLMs are still pairwisely fine-tuned. In this work, we design a multi-party fine-tuning framework (MuPaS) for LLMs on the multi-party dialogue datasets, and prove such a straightforward framework can let the LLM align with the multi-party conversation style efficiently and effectively. We also design two training strategies which can convert MuPaS into the MPD simulator. Substantial experiments show that MuPaS can achieve state-of-the-art multi-party response, higher accuracy of the-next-speaker prediction, higher human and automatic evaluated utterance qualities, and can even generate reasonably with out-of-distribution scene, topic and role descriptions. The MuPaS framework bridges the LLM training with more complicated multi-party applications, such as conversation generation, virtual rehearsal or meta-universe.
Abstract（参考訳）: 大規模言語モデル(LLM)は、通常、多人数の対話(MPD)にうまく対応できないダイアログや双方向の対話に参加するように微調整される。従来のLLMベースの研究は主にマルチエージェントフレームワークに重点を置いていたが、その基礎となるLLMはいまだに微調整されている。本研究では,多人数対話データセット上でのLLMのためのマルチパーティファインチューニングフレームワーク (MuPaS) を設計し,このような簡単なフレームワークにより,LLMが多人数対話スタイルと効率的に協調できることを示す。また,MuPaSをMPDシミュレータに変換するための2つのトレーニング戦略を設計する。現状実験により、MuPaSは最先端のマルチパーティ応答、次世代話者予測の精度の向上、高い人的および自動的な発話品質を実現でき、アウト・オブ・ディストリビューションシーン、トピック、ロール記述で合理的に生成できることが示された。 MuPaSフレームワークは、会話生成、仮想リハーサル、メタユニバースなど、より複雑なマルチパーティアプリケーションでLLMトレーニングをブリッジする。

関連論文リスト

Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning [32.95008932216176]
マルチターンマルチモーダル対話データセットであるMDDiagを紹介する。マルチモーダルグラウンドと推論機能を備えたMLLMであるDiagNoteについても紹介する。
論文参考訳（メタデータ） (2025-03-10T07:32:53Z)
Don't Stop the Multi-Party! On Generating Synthetic Multi-Party Conversations with Constraints [11.566214724241798]
マルチパーティ会話(MPC)は、ソーシャルメディアを主要なデータソースとして、そのアクセシビリティのために広く研究されている。本研究は,命令調整型大規模言語モデルを用いた多種多様なMPC生成の実現可能性について検討する。
論文参考訳（メタデータ） (2025-02-19T10:10:43Z)
Can xLLMs Understand the Structure of Dialog? Exploring Multilingual Response Generation in Complex Scenarios [8.131774353504472]
マルチパーティポッドキャスト対話をベースとした,高品質な並列多言語データセットであるXMPを紹介する。データセットの各サンプルには、社会、文化、政治、エンターテイメントなど、幅広いトピックを議論する少なくとも3人の参加者が含まれている。このような複雑な対話シナリオに適用した場合、LLMの従来認識されていた多言語機能に重大な制限が生じる。
論文参考訳（メタデータ） (2025-01-20T04:33:03Z)
Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM [44.59026505152727]
本稿では, Freeze-Omni という, 音声文によるマルチモーダルLLMアーキテクチャを提案する。我々の主な貢献は、音声入力と出力のモダリティがテキストLLMに容易に接続できることである。さらに,マルチタスク学習による二重対話能力を実現する手法も設計した。
論文参考訳（メタデータ） (2024-11-01T17:59:51Z)
OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文参考訳（メタデータ） (2024-10-23T11:58:58Z)
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文参考訳（メタデータ） (2024-09-13T07:28:28Z)
DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文参考訳（メタデータ） (2024-01-02T07:40:12Z)
Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。 PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文参考訳（メタデータ） (2023-11-01T03:20:16Z)
Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。 Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文参考訳（メタデータ） (2023-06-15T12:45:25Z)
Dialogue-oriented Pre-training [70.03028879331339]
一般的なプレーンテキスト上での会話特徴をシミュレートする3つの手法を提案する。 Dialog-PrLMは3つの公開マルチターン対話データセットに基づいて微調整される。
論文参考訳（メタデータ） (2021-06-01T12:02:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。