論文の概要: TSST: A Benchmark and Evaluation Models for Text Speech-Style Transfer
- arxiv url: http://arxiv.org/abs/2311.08389v1
- Date: Tue, 14 Nov 2023 18:50:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 12:47:53.436106
- Title: TSST: A Benchmark and Evaluation Models for Text Speech-Style Transfer
- Title(参考訳): テキスト音声スタイル変換のためのベンチマークと評価モデルTSST
- Authors: Huashan Sun, Yixiao Wu, Yinghao Li, Jiawei Li, Yizhe Yang, Yang Gao
- Abstract要約: テキスト音声スタイル転送(TSST)という新しいタスクを導入する。
主な目的は、既存の言語モデルの能力に基づいて、人格や感情などの人間の認知に関連するトピックを探索することである。
いくつかの大規模言語モデル(LLM)の性能を徹底的に分析し、さらなる改善が必要な領域を特定する。
- 参考スコア(独自算出の注目度): 17.888328120571245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text style is highly abstract, as it encompasses various aspects of a
speaker's characteristics, habits, logical thinking, and the content they
express. However, previous text-style transfer tasks have primarily focused on
data-driven approaches, lacking in-depth analysis and research from the
perspectives of linguistics and cognitive science. In this paper, we introduce
a novel task called Text Speech-Style Transfer (TSST). The main objective is to
further explore topics related to human cognition, such as personality and
emotion, based on the capabilities of existing LLMs. Considering the objective
of our task and the distinctive characteristics of oral speech in real-life
scenarios, we trained multi-dimension (i.e. filler words, vividness,
interactivity, emotionality) evaluation models for the TSST and validated their
correlation with human assessments. We thoroughly analyze the performance of
several large language models (LLMs) and identify areas where further
improvement is needed. Moreover, driven by our evaluation models, we have
released a new corpus that improves the capabilities of LLMs in generating text
with speech-style characteristics. In summary, we present the TSST task, a new
benchmark for style transfer and emphasizing human-oriented evaluation,
exploring and advancing the performance of current LLMs.
- Abstract(参考訳): テキストスタイルは、話者の特徴、習慣、論理的思考、それらが表現する内容の様々な側面を含むため、非常に抽象的なものである。
しかし、従来のテキストスタイルの転送タスクは、言語学と認知科学の観点からの詳細な分析と研究を欠いた、主にデータ駆動型アプローチに焦点が当てられている。
本稿では,テキスト音声スタイル転送(TSST)と呼ばれる新しいタスクを紹介する。
主な目的は、既存のLLMの能力に基づいて、人格や感情といった人間の認知に関する話題をさらに探求することである。
実生活シナリオにおけるタスクの目的と口頭発話の特徴を考慮し,TSSTの多次元評価モデル(充足語,鮮明度,対話性,感情性)を訓練し,人間の評価との相関性を検証した。
いくつかの大規模言語モデル(LLM)の性能を徹底的に分析し、さらなる改善が必要な領域を特定する。
さらに,評価モデルにより,LLMが音声の特徴を持つテキストを生成する能力を向上させるコーパスを新たにリリースした。
要約すると、TSSTタスクは、スタイル伝達のための新しいベンチマークであり、人間指向の評価を強調し、現在のLLMの性能を探求し、進歩させる。
関連論文リスト
- Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - Specializing Small Language Models towards Complex Style Transfer via
Latent Attribute Pre-Training [29.143887057933327]
複雑なテキストスタイルの転送タスクの概念を導入し、2つの広く適用可能なシナリオに基づいて複雑なテキストデータセットを構築した。
我々のデータセットは、ゲームGenshin Impactの700文と1000文からなる、この種の最初の大規模データセットである。
論文 参考訳(メタデータ) (2023-09-19T21:01:40Z) - Conversation Style Transfer using Few-Shot Learning [56.43383396058639]
本稿では,会話スタイルの伝達を数ショットの学習問題として紹介する。
そこで本研究では,スタイルフリー対話による課題をピボットとして解くための,コンテキスト内学習手法を提案する。
会話スタイルの転送は下流のタスクにも役立ちます。
論文 参考訳(メタデータ) (2023-02-16T15:27:00Z) - Prompt-Based Editing for Text Style Transfer [25.863546922455498]
テキストスタイル転送のためのプロンプトベースの編集手法を提案する。
我々は,プロンプトベースの生成問題を,学習自由なプロセスである分類問題に変換する。
我々のアプローチは、20倍のパラメータを持つ最先端のシステムよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-01-27T21:31:14Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse
Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。
我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。
モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文 参考訳(メタデータ) (2022-08-29T08:47:49Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z) - StyleDGPT: Stylized Response Generation with Pre-trained Language Models [39.526613595499356]
KL損失とスタイル分類器を導入し、単語レベルと文レベルの両方において、ターゲットスタイルに対して応答生成を操る。
我々のモデルは、スタイル整合性とコンテキスト整合性の両方の観点から、最先端の手法を著しく上回ります。
論文 参考訳(メタデータ) (2020-10-06T09:29:50Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。