論文の概要: DiscussLLM: Teaching Large Language Models When to Speak
- arxiv url: http://arxiv.org/abs/2508.18167v1
- Date: Mon, 25 Aug 2025 16:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.858568
- Title: DiscussLLM: Teaching Large Language Models When to Speak
- Title(参考訳): DiscussLLM: 講演時の大規模言語モデルを教える
- Authors: Deep Anil Patel, Iain Melvin, Christopher Malon, Martin Renqiang Min,
- Abstract要約: LLM(Large Language Models)は、人間に似たテキストの理解と生成において顕著な能力を示した。
トレーニングモデルによってこのギャップを埋めるために設計されたフレームワークである$textitDiscussLLM$を紹介します。
- 参考スコア(独自算出の注目度): 9.441455921296301
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in understanding and generating human-like text, yet they largely operate as reactive agents, responding only when directly prompted. This passivity creates an "awareness gap," limiting their potential as truly collaborative partners in dynamic human discussions. We introduce $\textit{DiscussLLM}$, a framework designed to bridge this gap by training models to proactively decide not just $\textit{what}$ to say, but critically, $\textit{when}$ to speak. Our primary contribution is a scalable two-stage data generation pipeline that synthesizes a large-scale dataset of realistic multi-turn human discussions. Each discussion is annotated with one of five intervention types (e.g., Factual Correction, Concept Definition) and contains an explicit conversational trigger where an AI intervention adds value. By training models to predict a special silent token when no intervention is needed, they learn to remain quiet until a helpful contribution can be made. We explore two architectural baselines: an integrated end-to-end model and a decoupled classifier-generator system optimized for low-latency inference. We evaluate these models on their ability to accurately time interventions and generate helpful responses, paving the way for more situationally aware and proactive conversational AI.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人間のようなテキストの理解と生成において顕著な能力を示してきたが、反応エージェントとして機能し、直接刺激された時にのみ応答する。
この通過性は「認識ギャップ」を生じさせ、動的な人間の議論において真に協力的なパートナーとしての可能性を制限する。
トレーニングモデルによってこのギャップを埋めるために設計されたフレームワークである$\textit{DiscussLLM}$を紹介します。
私たちの主な貢献はスケーラブルな2段階データ生成パイプラインで、現実的なマルチターンヒューマンディスカッションの大規模なデータセットを合成します。
それぞれの議論には5つの介入タイプ(例えば、Factual Correction、Concept Definition)の1つが注釈付けされており、AI介入が価値を付加する明確な会話トリガーが含まれている。
介入が不要な場合に特別なサイレントトークンを予測するためにモデルをトレーニングすることで、有効なコントリビューションが得られるまで、静かであることを学ぶ。
低レイテンシ推論に最適化された統合エンド・ツー・エンドモデルとデカップリング型分類器・ジェネレータシステムという2つのアーキテクチャベースラインについて検討する。
我々は、これらのモデルを、介入を正確にタイムアウトし、有用な応答を生成する能力に基づいて評価し、より状況に敏感で積極的な会話型AIへの道を開く。
関連論文リスト
- UniConv: Unifying Retrieval and Response Generation for Large Language Models in Conversations [71.79210031338464]
会話における大規模言語モデルに対する高密度検索と応答生成の統一方法を示す。
目的の異なる共同微調整を行い、不整合リスクを低減するための2つのメカニズムを設計する。
5つの対話型検索データセットの評価は、我々の統合モデルがタスクを相互に改善し、既存のベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-07-09T17:02:40Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - Towards Anthropomorphic Conversational AI Part I: A Practical Framework [49.62013440962072]
会話に関わる人間の知性の重要な側面を再現するために設計されたマルチモジュールフレームワークを導入する。
アプローチの第2段階では、これらの会話データは、フィルタリングとラベル付けの後に、強化学習のためのトレーニングおよびテストデータとして機能する。
論文 参考訳(メタデータ) (2025-02-28T03:18:39Z) - VAGUE: Visual Contexts Clarify Ambiguous Expressions [15.140825578254324]
目的のための視覚的コンテキストを統合するマルチモーダルAIシステムの能力を評価するベンチマークであるVAGUEを紹介する。
VAGUEは1.6Kの曖昧な文体表現で構成され、それぞれに画像と複数選択の解釈が組み合わされている。
我々の実験によると、既存のマルチモーダルAIモデルは話者の真の意図を推測するのに苦労している。
論文 参考訳(メタデータ) (2024-11-21T14:01:42Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming [0.0]
ミニオムニ(Mini-Omni)は、リアルタイム音声対話が可能な音声ベースのエンドツーエンド会話モデルである。
そこで本研究では,テキストによる音声生成手法と,推論中のバッチ並列戦略を併用して,性能を向上させる手法を提案する。
また、最適化音声出力のための微調整モデルにVoiceAssistant-400Kデータセットを導入する。
論文 参考訳(メタデータ) (2024-08-29T17:18:53Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - TANet: Thread-Aware Pretraining for Abstractive Conversational
Summarization [27.185068253347257]
我々はRedditコミュニティの複数人による議論に基づいて,RCSと呼ばれる大規模(11M)事前学習データセットを構築した。
次に、スレッド対応のTransformerベースのネットワークであるTANetを紹介する。
会話を文の列として扱う既存の事前学習モデルとは異なり、本質的な文脈依存は会話全体を理解する上で重要な役割を担っていると論じる。
論文 参考訳(メタデータ) (2022-04-09T16:08:46Z) - Plug-and-Play Conversational Models [62.77150879036442]
我々はデコード時にさらなる計算を必要としないアプローチを導入し、また大きな言語モデルの微調整も必要としない。
我々は、広範囲な自動的・人的評価を通じて、複数の望ましい属性について、生成した会話応答に対する高い制御を実証する。
論文 参考訳(メタデータ) (2020-10-09T03:17:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。