Fugu-MT 論文翻訳(概要): Modeling Real-Time Interactive Conversations as Timed Diarized Transcripts

論文の概要: Modeling Real-Time Interactive Conversations as Timed Diarized Transcripts

arxiv url: http://arxiv.org/abs/2405.13203v1
Date: Tue, 21 May 2024 21:14:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 02:03:26.379292
Title: Modeling Real-Time Interactive Conversations as Timed Diarized Transcripts
Title（参考訳）: 時間付きダイアリゼーショントランスクリプトによるリアルタイム対話のモデル化
Authors: Garrett Tanzer, Gustaf Ahdritz, Luke Melas-Kyriazi,
Abstract要約: 本稿では,事前学習した言語モデルを用いて,リアルタイム対話型会話をシミュレートする簡易かつ汎用的な手法を提案する。本稿では,インスタントメッセージ対話と音声会話の2つのケーススタディを用いて,この手法の可能性を実証する。
参考スコア（独自算出の注目度）: 11.067252960486272
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Chatbots built upon language models have exploded in popularity, but they have largely been limited to synchronous, turn-by-turn dialogues. In this paper we present a simple yet general method to simulate real-time interactive conversations using pretrained text-only language models, by modeling timed diarized transcripts and decoding them with causal rejection sampling. We demonstrate the promise of this method with two case studies: instant messenger dialogues and spoken conversations, which require generation at about 30 tok/s and 20 tok/s respectively to maintain real-time interactivity. These capabilities can be added into language models using relatively little data and run on commodity hardware.
Abstract（参考訳）: 言語モデル上に構築されたチャットボットの人気は爆発的に高まっているが、それらは主に同期的でターンバイターンな対話に限られている。本稿では,時間付きダイアライズされた文字起こしをモデル化し,因果的拒絶サンプリングを用いて復号化することにより,事前訓練されたテキストのみの言語モデルを用いてリアルタイム対話をシミュレートする簡易かつ汎用的な手法を提案する。リアルタイムの対話性を維持するために約30 tok/sと20 tok/sの生成を必要とするインスタントメッセンジャー対話と音声会話の2つのケーススタディで本手法の可能性を実証する。これらの機能は、比較的小さなデータを使用して言語モデルに追加し、コモディティハードウェア上で動作させることができる。

関連論文リスト

Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文参考訳（メタデータ） (2025-03-19T18:40:45Z)
Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要な会話動作を体系的に評価するベンチマークである。音声対話のモデリングを推進し、よりインタラクティブで自然な対話システムの開発を促進することを目的としている。
論文参考訳（メタデータ） (2025-03-06T18:59:16Z)
Real-Time Textless Dialogue Generation [23.456302461693053]
リアルタイム・テキストレス音声対話生成モデル(RTTL-DG)を提案する。本システムでは,音声音声を直接処理することで,流体の旋回と応答を最小限の遅延で生成する。我々のモデルでは、バックチャネル、フィルタ、笑い、その他のパラ言語信号が組み込まれており、しばしばカスケード対話システムでは欠落している。
論文参考訳（メタデータ） (2025-01-08T23:21:43Z)
Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文参考訳（メタデータ） (2024-09-17T17:55:39Z)
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming [0.0]
ミニオムニ(Mini-Omni)は、リアルタイム音声対話が可能な音声ベースのエンドツーエンド会話モデルである。そこで本研究では,テキストによる音声生成手法と,推論中のバッチ並列戦略を併用して,性能を向上させる手法を提案する。また、最適化音声出力のための微調整モデルにVoiceAssistant-400Kデータセットを導入する。
論文参考訳（メタデータ） (2024-08-29T17:18:53Z)
Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文参考訳（メタデータ） (2024-08-19T09:57:28Z)
Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation [16.724603503894166]
Style-Talkerは、高速音声ダイアログ生成のためのスタイルベースのTSモデルとともに、オーディオLLMを微調整する革新的なフレームワークである。実験の結果,Style-Talkerは対話の自然さとコヒーレンスの両方の観点から,従来のカスケードと音声音声のベースラインを著しく上回ることがわかった。
論文参考訳（メタデータ） (2024-08-13T04:35:11Z)
Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文参考訳（メタデータ） (2024-01-05T14:47:20Z)
An Interleaving Semantics of the Timed Concurrent Language for Argumentation to Model Debates and Dialogue Games [0.0]
エージェント間の同時相互作用をモデル化する言語を提案する。このような言語は、エージェントが彼らの信念の受容可能性についてコミュニケーションし、推論するために使用する共有メモリを利用する。知的エージェント間で行われる議論や対話ゲームのようなインタラクションをモデル化するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2023-06-13T10:41:28Z)
Grounding Language Models to Images for Multimodal Inputs and Outputs [89.30027812161686]
本稿では,事前学習したテキストのみの言語モデルを視覚領域に最適化する効率的な手法を提案する。任意にインターリーブされた画像とテキストデータを処理し、検索した画像とインターリーブされたテキストを生成する。
論文参考訳（メタデータ） (2023-01-31T18:33:44Z)
CloneBot: Personalized Dialogue-Response Predictions [0.0]
プロジェクトのタスクは、話者id、チャット履歴、発話クエリが与えられた場合に、会話中の応答発話を予測できるモデルを作成することだった。モデルは各話者にパーソナライズされる。このタスクは、人間のような方法で会話する音声ボットをライブ会話で構築するのに有用なツールである。
論文参考訳（メタデータ） (2021-03-31T01:15:37Z)
Plug-and-Play Conversational Models [62.77150879036442]
我々はデコード時にさらなる計算を必要としないアプローチを導入し、また大きな言語モデルの微調整も必要としない。我々は、広範囲な自動的・人的評価を通じて、複数の望ましい属性について、生成した会話応答に対する高い制御を実証する。
論文参考訳（メタデータ） (2020-10-09T03:17:51Z)
The Adapter-Bot: All-In-One Controllable Conversational Model [66.48164003532484]
本稿では、DialGPTなどの固定バックボーンモデルを用いて、異なるアダプタを介してオンデマンド対話スキルをトリガーする対話モデルを提案する。スキルに応じて、モデルはテキスト、テーブル、強調応答などの複数の知識タイプを処理できる。我々は,既存の会話モデルと比較し,自動評価を用いたモデルの評価を行った。
論文参考訳（メタデータ） (2020-08-28T10:59:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。