Fugu-MT 論文翻訳(概要): NaturalTurn: A Method to Segment Transcripts into Naturalistic Conversational Turns

論文の概要: NaturalTurn: A Method to Segment Transcripts into Naturalistic Conversational Turns

arxiv url: http://arxiv.org/abs/2403.15615v1
Date: Fri, 22 Mar 2024 21:05:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-26 21:41:55.486740
Title: NaturalTurn: A Method to Segment Transcripts into Naturalistic Conversational Turns
Title（参考訳）: NaturalTurn: テキストを自然な会話のターンに分割する手法
Authors: Gus Cooney, Andrew Reece,
Abstract要約: ナチュラルトゥール(NaturalTurn)は、自然主義交換の力学を正確に捉えるために設計されたターンセグメンテーションアルゴリズムである。本研究では,NaturalTurnから派生した転写産物が,既存の方法から派生した転写産物と比較して,統計的および推論的特性が良好であることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Conversation is the subject of increasing interest in the social, cognitive, and computational sciences. And yet, as conversational datasets continue to increase in size and complexity, researchers lack scalable methods to segment speech-to-text transcripts into conversational turns--the basic building blocks of social interaction. We introduce "NaturalTurn," a turn segmentation algorithm designed to accurately capture the dynamics of naturalistic exchange. NaturalTurn operates by distinguishing speakers' primary conversational turns from listeners' secondary utterances, such as backchannels, brief interjections, and other forms of parallel speech that characterize conversation. Using data from a large conversation corpus, we show how NaturalTurn-derived transcripts demonstrate favorable statistical and inferential characteristics compared to transcripts derived from existing methods. The NaturalTurn algorithm represents an improvement in machine-generated transcript processing methods, or "turn models" that will enable researchers to associate turn-taking dynamics with the broader outcomes that result from social interaction, a central goal of conversation science.
Abstract（参考訳）: 会話は、社会的、認知的、計算科学への関心の高まりの主題である。しかし、会話データセットがサイズと複雑さを増し続けているため、研究者は音声からテキストへの書き起こしを会話のターンに分割するスケーラブルな手法を欠いている。本研究では,自然主義的交換のダイナミクスを正確に捉えるために,ターンセグメンテーションアルゴリズムであるNaturalTurnを紹介する。 NaturalTurnは、リスナーの二次発話(バックチャンネル、短いインタージェクション、会話を特徴付ける他の形式のパラレルスピーチなど)と、話者の主会話のターンを区別することによって機能する。本研究では,大規模な会話コーパスから得られたデータを用いて,NaturalTurn由来の転写文が,既存の手法による転写文と比較して,統計的・推論的な特徴を示すことを示す。 NaturalTurnアルゴリズムは、研究者がターンテイクのダイナミクスと、会話科学の中心的な目標である社会的相互作用から生じるより広範な結果とを関連付けることができるように、機械生成の転写処理手法の改善(ターンモデル)を表現している。

関連論文リスト

Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。 AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-26T16:45:20Z)
A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文参考訳（メタデータ） (2024-10-25T15:39:34Z)
OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文参考訳（メタデータ） (2024-10-23T11:58:58Z)
Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文参考訳（メタデータ） (2024-10-21T11:57:56Z)
Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文参考訳（メタデータ） (2023-06-21T05:11:39Z)
Affective social anthropomorphic intelligent system [1.7849339006560665]
本研究は、感情や性格と人間のような適切な会話をすることができる人間型知的システムを提案する。特定の感情の属性をマッピングするために,音声スタイルの伝達法も提案されている。
論文参考訳（メタデータ） (2023-04-19T18:24:57Z)
Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-01-10T13:18:25Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)
Deep Neural Convolutive Matrix Factorization for Articulatory Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文参考訳（メタデータ） (2022-04-01T14:25:19Z)
Proto: A Neural Cocktail for Generating Appealing Conversations [3.0886356222136837]
本稿では,Alexa Prize Grand Challenge 4 Socialbot: Protoを紹介する。本稿では,ソーシャルボットが実施するさまざまなコンポーネントや会話戦略を識別し,分析する。
論文参考訳（メタデータ） (2021-09-06T14:46:04Z)
A Neural Conversation Generation Model via Equivalent Shared Memory Investigation [39.922967513749654]
DRMN(Deep Reading Memory Network)と呼ばれる新しい読み書き・記憶フレームワークを提案する。 DRMNは、発話生成を改善するために、類似した会話の有用な情報を記憶することができる。弊社のモデルは、正義とeコマースの2つの大規模な会話データセットに適用する。
論文参考訳（メタデータ） (2021-08-20T13:20:14Z)
Spoken Style Learning with Multi-modal Hierarchical Context Encoding for Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文参考訳（メタデータ） (2021-06-11T08:33:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。