論文の概要: Contrastive Speaker-Aware Learning for Multi-party Dialogue Generation with LLMs
- arxiv url: http://arxiv.org/abs/2503.08842v1
- Date: Tue, 11 Mar 2025 19:28:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:36:30.454018
- Title: Contrastive Speaker-Aware Learning for Multi-party Dialogue Generation with LLMs
- Title(参考訳): LLMを用いた多人数対話生成のための対照的話者認識学習
- Authors: Tianyu Sun, Kun Qian, Wenhong Wang,
- Abstract要約: マルチパーティ対話生成は、複数の話者の複雑な相互作用と会話スレッド間の相互作用によって大きな課題を呈する。
本稿では,事前学習されたLarge Language Models (LLM) を利用した新しい生成モデルである Speaker-Attentive LLM (SA-LLM) と,これらの課題に対処するための話者認識型コントラスト学習戦略を提案する。
SA-LLMは、明示的な関係アノテーションなしで文脈的コヒーレンスと話者の役割を暗黙的に学習する、話者対応の入力符号化と対照的な学習目的を取り入れている。
- 参考スコア(独自算出の注目度): 4.691083532629246
- License:
- Abstract: Multi-party dialogue generation presents significant challenges due to the complex interplay of multiple speakers and interwoven conversational threads. Traditional approaches often fall short in capturing these complexities, particularly when relying on manually annotated dialogue relations. This paper introduces Speaker-Attentive LLM (SA-LLM), a novel generative model that leverages pre-trained Large Language Models (LLMs) and a speaker-aware contrastive learning strategy to address these challenges. SA-LLM incorporates a speaker-attributed input encoding and a contrastive learning objective to implicitly learn contextual coherence and speaker roles without explicit relation annotations. Extensive experiments on the Ubuntu IRC and Movie Dialogues datasets demonstrate that SA-LLM significantly outperforms state-of-the-art baselines in automatic and human evaluations, achieving superior performance in fluency, coherence, informativeness, and response diversity. Ablation studies and detailed error analyses further validate the effectiveness of the proposed speaker-attentive training approach, highlighting its robustness across different speaker roles and context lengths. The results underscore the potential of SA-LLM as a powerful and annotation-free solution for high-quality multi-party dialogue generation.
- Abstract(参考訳): マルチパーティ対話生成は、複数の話者の複雑な相互作用と会話スレッド間の相互作用によって大きな課題を呈する。
伝統的なアプローチは、特に手動で注釈付けされた対話関係に依存する場合、これらの複雑さを捉えるのに不足することが多い。
本稿では,事前学習されたLarge Language Models (LLM) を利用した新しい生成モデルである Speaker-Attentive LLM (SA-LLM) と,これらの課題に対処するための話者認識型コントラスト学習戦略を提案する。
SA-LLMは、明示的な関係アノテーションなしで文脈的コヒーレンスと話者の役割を暗黙的に学習する、話者対応の入力符号化と対照的な学習目的を取り入れている。
Ubuntu IRCとMovie Dialoguesデータセットの大規模な実験により、SA-LLMは、自動評価と人的評価において最先端のベースラインを著しく上回り、フルーエンス、コヒーレンス、情報性、応答多様性において優れたパフォーマンスを達成することが示されている。
アブレーション研究と詳細な誤り解析により、提案手法の有効性をさらに検証し、話者の役割や文脈の長さによって頑健さを強調した。
この結果から,SA-LLMは高品位多人数対話生成のための強力でアノテーションのないソリューションである可能性が示唆された。
関連論文リスト
- Advancing Multi-Party Dialogue Systems with Speaker-ware Contrastive Learning [10.678477576849579]
コントラスト学習に基づく多人数対話応答生成モデルを提案する。
CMRは自己指導型コントラスト学習を用いて「誰が何を言っているのか」を識別する
CMRは、多人数対話応答タスクにおける最先端モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-01-20T06:28:22Z) - Integrating Audio, Visual, and Semantic Information for Enhanced Multimodal Speaker Diarization [25.213694510527436]
既存の話者ダイアリゼーションシステムの多くは、単調な音響情報のみに依存している。
本稿では,音声,視覚,意味的手がかりを併用して話者ダイアリゼーションを向上する新しいマルチモーダル手法を提案する。
我々の手法は、最先端の話者ダイアリゼーション法より一貫して優れている。
論文 参考訳(メタデータ) (2024-08-22T03:34:03Z) - SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization [48.284512017469524]
マルチターン対話は、その長さとターンテイクな会話の存在によって特徴づけられる。
伝統的な言語モデルは、しばしばそれらの対話の特徴を通常のテキストとして扱うことによって見落としている。
長文対話要約のための話者強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T04:50:00Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Enhanced Speaker-aware Multi-party Multi-turn Dialogue Comprehension [43.352833140317486]
マルチパーティ・マルチターン・ダイアログの理解は前例のない課題をもたらす。
既存のほとんどのメソッドは、会話コンテキストをプレーンテキストとして扱う。
マスキングアテンションと異種グラフネットワークを用いた話者認識モデルを提案する。
論文 参考訳(メタデータ) (2021-09-09T07:12:22Z) - Self- and Pseudo-self-supervised Prediction of Speaker and Key-utterance
for Multi-party Dialogue Reading Comprehension [46.69961067676279]
マルチパーティ対話機械読解(MRC)は,複数の話者が対話を行うため,大きな課題をもたらす。
従来のモデルは、複雑なグラフベースのモジュールを使用して話者情報フローを組み込む方法に重点を置いていた。
本稿では、話者情報の流れを暗黙的にモデル化するために、話者とキー発話における2つの労働自由自助的・疑似自己監督型予測タスクを設計する。
論文 参考訳(メタデータ) (2021-09-08T16:51:41Z) - Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。
対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。
広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文 参考訳(メタデータ) (2021-05-23T15:16:54Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。