論文の概要: Reading Between the Lines: The One-Sided Conversation Problem
- arxiv url: http://arxiv.org/abs/2511.03056v1
- Date: Tue, 04 Nov 2025 22:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.270183
- Title: Reading Between the Lines: The One-Sided Conversation Problem
- Title(参考訳): 行間を読む:一面会話問題
- Authors: Victoria Ebert, Rishabh Singh, Tuochao Chen, Noah A. Smith, Shyamnath Gollakota,
- Abstract要約: 我々は一方的な会話問題(1SC)を定式化する。
リアルタイムのユースケースに対して、欠落した話者のターンを再構築し、一方の書き起こしから要約を生成する。
プライバシーに配慮した会話型AIへの一歩となる有望な成果を報告します。
- 参考スコア(独自算出の注目度): 49.36189146596834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational AI is constrained in many real-world settings where only one side of a dialogue can be recorded, such as telemedicine, call centers, and smart glasses. We formalize this as the one-sided conversation problem (1SC): inferring and learning from one side of a conversation. We study two tasks: (1) reconstructing the missing speaker's turns for real-time use cases, and (2) generating summaries from one-sided transcripts. Evaluating prompting and finetuned models on MultiWOZ, DailyDialog, and Candor with both human A/B testing and LLM-as-a-judge metrics, we find that access to one future turn and information about utterance length improves reconstruction, placeholder prompting helps to mitigate hallucination, and while large models generate promising reconstructions with prompting, smaller models require finetuning. Further, high-quality summaries can be generated without reconstructing missing turns. We present 1SC as a novel challenge and report promising results that mark a step toward privacy-aware conversational AI.
- Abstract(参考訳): 会話AIは、遠隔医療、コールセンター、スマートグラスなど、対話の片側のみを記録することができる多くの現実世界環境で制限されている。
我々はこれを片側会話問題 (1SC) として定式化し、会話の片側から推論と学習を行う。
本研究では,(1)失語話者のターンをリアルタイムに再構築すること,(2)片側書き起こしから要約を生成すること,の2つの課題について検討する。
また,MultiWOZ,DailyDialog,Candorの各モデルに対して,人間のA/BテストとLLM-as-a-judge測定値の両方で予測・微調整を行った結果,発話長に関する情報が再現性を向上させることがわかった。
さらに、欠番を再構築することなく高品質な要約を生成することができる。
我々は1SCを新たな課題として提示し、プライバシーに配慮した会話型AIへの一歩となる有望な結果を報告する。
関連論文リスト
- DiscussLLM: Teaching Large Language Models When to Speak [9.441455921296301]
LLM(Large Language Models)は、人間に似たテキストの理解と生成において顕著な能力を示した。
トレーニングモデルによってこのギャップを埋めるために設計されたフレームワークである$textitDiscussLLM$を紹介します。
論文 参考訳(メタデータ) (2025-08-25T16:16:42Z) - Mind the Quote: Enabling Quotation-Aware Dialogue in LLMs via Plug-and-Play Modules [19.673388630963807]
課題をスパン条件付き世代として定式化し、各ターンを対話履歴に分解する。
本稿では,タスク固有の対話を自動的に合成する引用中心のデータパイプラインを提案する。
本稿では,2つのボトルネックプロジェクションをアタッチメントヘッドにアタッチする軽量なトレーニングベース手法QuAdaを提案する。
論文 参考訳(メタデータ) (2025-05-30T07:06:11Z) - Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。
追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。
音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文 参考訳(メタデータ) (2025-03-19T18:40:45Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Reason first, then respond: Modular Generation for Knowledge-infused
Dialogue [43.64093692715295]
大規模な言語モデルは、流動的な対話を生成できるが、しばしば事実の不正確さを幻覚させる。
本稿では,会話エージェントに知識を組み込むモジュールモデルであるKnowledge to Responseを提案する。
詳細な実験では、そのようなモデルが知識に基づく対話作業において幻覚を弱めることが判明した。
論文 参考訳(メタデータ) (2021-11-09T15:29:43Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z) - Diversifying Dialogue Generation with Non-Conversational Text [38.03510529185192]
非会話的テキストを活用することで対話生成を多様化する新しい視点を提案する。
我々は、フォーラムコメント、イディオム、本スニペットを含む複数の情報源から、大規模な非会話コーパスを収集する。
得られたモデルは、2つの会話データセット上でテストされ、コンテキストとの関連性を犠牲にすることなく、はるかに多様な応答を生成することが示されている。
論文 参考訳(メタデータ) (2020-05-09T02:16:05Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。