論文の概要: Can MLLMs Generalize to Multi-Party dialog? Exploring Multilingual Response Generation in Complex Scenarios
- arxiv url: http://arxiv.org/abs/2501.11269v2
- Date: Mon, 19 May 2025 07:25:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.374309
- Title: Can MLLMs Generalize to Multi-Party dialog? Exploring Multilingual Response Generation in Complex Scenarios
- Title(参考訳): MLLMは多人数対話に一般化できるか? 複合シナリオにおける多言語応答生成の探索
- Authors: Zhongtian Hu, Yiwen Cui, Ronghan Li, Meng Zhao, Lifang Wang,
- Abstract要約: マルチパーティポッドキャスト対話をベースとした,高品質な並列多言語データセットであるXMPを紹介する。
データセットのほとんどのサンプルには3つ以上の参加者が参加し、幅広いトピックについて議論している。
R1:MLLMはマルチパーティ設定への一般化に失敗し、XMPのR2ファインチューニングはわずかに改善され、70Bモデルは8Bよりも1%の絶対的なゲインを達成した。
- 参考スコア(独自算出の注目度): 8.131774353504472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current multilingual large language models(MLLMs) still focus on simple question-answering formats, often overlooking more complex dialogue scenarios. In other words, their capabilities of multilingual large models have yet to be validated in dialogue tasks with intricate structures. We therefore ask, Q1: How well do LLMs generalize to more complex dialog scenarios? Q2: Can supervised fine-tuning on a high-quality parallel benchmark restore this ability? Q3: Does the "multilingual complementarity" effect survive in the setting? To answer these questions, we introduce XMP, a high-quality parallel Multilingual dataset sourced from Multi-party Podcast dialogues, which is the first parallel dataset focusing on multi-party dialogue scenarios. Most samples in the dataset feature three or more participants, discussing a wide range of topics. Through extensive experiments, we find that, R1: MLLMs fail to generalize to multi-party setting, R2 Fine-tuning on XMP improves only marginally, with the 70B model achieving at most a 1% absolute gain over its 8B counterpart; R3: Mixing languages during SFT is usually detrimental, with any benefits being marginal and limited to isolated cases in the 70B model.
- Abstract(参考訳): 現在の多言語大言語モデル(MLLM)は依然として単純な問合せ形式に重点を置いており、しばしばより複雑な対話シナリオを見下ろしている。
言い換えれば、多言語大規模モデルの能力は、複雑な構造を持つ対話タスクでは、まだ検証されていない。
LLMはどのようにしてより複雑なダイアログシナリオに一般化しますか?
Q2: 高品質な並列ベンチマークの微調整を監督することはできますか?
Q3:「多重相補性」効果は、この設定で存在するか?
これらの疑問に答えるために,マルチパーティのPodcastダイアログをベースとした高品質な並列マルチ言語データセットであるXMPを紹介した。
データセットのほとんどのサンプルには3つ以上の参加者が参加し、幅広いトピックについて議論している。
R1: MLLMはマルチパーティ設定への一般化に失敗し、R2 XMPのファインチューニングはわずかに改善され、70Bモデルは8Bモデルよりも1%の絶対的なゲインを達成した。
関連論文リスト
- KwaiChat: A Large-Scale Video-Driven Multilingual Mixed-Type Dialogue Corpus [69.46707346122113]
本稿では,人間間ビデオ駆動型多言語混在型対話コーパスを提案する。
KwaiChatのコーパスには合計93,209の動画と246,080の対話があり、4つの対話タイプ、30のドメイン、4つの言語、13のトピックが含まれている。
KwaiChat上での 7 つの異なる LLM の解析により、GPT-4o が最高の性能を発揮するが、この状況では性能が良くないことが明らかとなった。
論文 参考訳(メタデータ) (2025-03-10T04:05:38Z) - Open-Source Large Language Models as Multilingual Crowdworkers: Synthesizing Open-Domain Dialogues in Several Languages With No Examples in Targets and No Machine Translation [1.7436854281619139]
大規模言語モデルを用いて複数のターゲット言語でオープンドメイン対話データを生成するパイプラインを提案する。
生成した対話の開放性を高め,実生活を模倣するために,話者が関与する会話の種類に応じた発話イベントの概念を追加した。
論文 参考訳(メタデータ) (2025-03-05T12:52:14Z) - Multi-Party Supervised Fine-tuning of Language Models for Multi-Party Dialogue Generation [11.340007143339657]
大規模言語モデル(LLM)は通常、ダイアディックや二者対話に参加するために微調整される。
本研究では,多人数対話データセットに基づくLLMのためのマルチパーティファインチューニングフレームワーク (MuPaS) を設計する。
論文 参考訳(メタデータ) (2024-12-06T09:33:47Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。
包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training [29.47243668154796]
BLOOMZMMSは多言語LLMと多言語音声エンコーダを統合する新しいモデルである。
本稿では,言語知識のテキストから音声モダリティへの伝達性を示す。
ゼロショット評価の結果は、複数のタスクにまたがるアプローチの堅牢性を確認します。
論文 参考訳(メタデータ) (2024-04-16T21:45:59Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。
Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。
我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文 参考訳(メタデータ) (2022-12-20T17:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。