論文の概要: Human-1 by Josh Talks: A Full-Duplex Conversational Modeling Framework in Hindi using Real-World Conversations
- arxiv url: http://arxiv.org/abs/2604.23295v1
- Date: Sat, 25 Apr 2026 13:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.257079
- Title: Human-1 by Josh Talks: A Full-Duplex Conversational Modeling Framework in Hindi using Real-World Conversations
- Title(参考訳): Human-1 by Josh Talks: 実世界会話を用いたヒンディー語における全二重会話モデリングフレームワーク
- Authors: Bhaskar Singh, Shobhit Banga, Pranav Sharma,
- Abstract要約: 完全な音声対話システムは、割り込みやバックチューニングといった自然な会話動作をモデル化することができる。
この研究はヒンディー語や他のインドの言語のためのリアルタイム音声対話システムに向けた第一歩となる。
- 参考スコア(独自算出の注目度): 1.218012293738896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Full-duplex spoken dialogue systems can model natural conversational behaviours such as interruptions, overlaps, and backchannels, yet such systems remain largely unexplored for Indian languages. We present the first open, reproducible full-duplex spoken dialogue system for Hindi by adapting Moshi, a state-of-the-art duplex speech architecture, using a custom Hindi tokeniser and training on 26,000 hours of real spontaneous conversations collected from 14,695 speakers with separate speaker channels, enabling direct learning of turn-taking and overlap patterns from natural interactions. To support Hindi text generation, we replace the original English tokeniser and reinitialise text-vocabulary-dependent parameters while retaining the pre-trained audio components. We propose a two-stage training recipe -- large-scale pre-training followed by fine-tuning on 1,000 hours of conversational data. Evaluation through the prompted dialogue continuation paradigm with both automatic metrics and human judgments demonstrates that the resulting model generates natural and meaningful full-duplex conversational behaviour in Hindi. This work serves as a first step toward real-time duplex spoken dialogue systems for Hindi and other Indian languages.
- Abstract(参考訳): 全二重音声対話システムは、割り込み、重複、バックチャネルなどの自然な会話動作をモデル化することができるが、インド語ではそのようなシステムがほとんど探索されていない。
我々は,ヒンディー語話者14,695人の話者から収集された26,000時間の実自然会話を学習し,自然対話からのターンテイクと重複パターンの直接学習を可能にし,ヒンディー語に対する最初のオープンかつ再現可能な全二重音声対話システムを提案する。
ヒンディー語のテキスト生成をサポートするために、オリジナル英語のトークンサを置き換え、事前学習された音声成分を保持しながら、テキスト語彙に依存したパラメータを再起動する。
大規模な事前トレーニングと,1,000時間の会話データによる微調整という,2段階のトレーニングレシピを提案する。
自動測定と人的判断を併用した対話継続パラダイムによる評価は,ヒンディー語における自然かつ有意義な会話行動を生成することを示す。
この研究は、ヒンディー語や他のインドの言語のためのリアルタイム二重音声対話システムに向けた第一歩となる。
関連論文リスト
- F-Actor: Controllable Conversational Behaviour in Full-Duplex Models [70.48189107402145]
典型的な学術的制約下で効率的に訓練できる,第1にオープンかつ命令追従型全段階会話音声モデルを提案する。
我々のモデルは、大規模な事前訓練や多段階事前訓練に頼ることなく、わずか2000時間のデータしか必要としない。
モデルとトレーニングコードの両方がリリースされ、制御可能なフルステージ音声システムに関する再現可能な研究が可能になる。
論文 参考訳(メタデータ) (2026-01-16T14:25:57Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - Towards a Japanese Full-duplex Spoken Dialogue System [8.984488716637655]
近年,音声対話システムが注目されている。
本稿では,日本語で利用可能なフルステージ音声対話モデルについて紹介する。
本モデルは,日本語における大規模音声対話データに対する事前学習と,高品質なステレオ音声対話データによる微調整の2チャンネルプロセスを通じて訓練される。
論文 参考訳(メタデータ) (2025-06-03T15:16:50Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。