論文の概要: The Anatomy of Speech Persuasion: Linguistic Shifts in LLM-Modified Speeches
- arxiv url: http://arxiv.org/abs/2506.18621v1
- Date: Mon, 23 Jun 2025 13:28:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.994634
- Title: The Anatomy of Speech Persuasion: Linguistic Shifts in LLM-Modified Speeches
- Title(参考訳): 音声説得の解剖:LLM修正音声における言語変化
- Authors: Alisa Barkar, Mathieu Chollet, Matthieu Labeau, Beatrice Biancardi, Chloe Clavel,
- Abstract要約: 本研究は,大規模言語モデルが公用語における説得性の概念をどのように理解しているかを,音声書き起こしの修正によって検討する。
我々は, GPT-4oに, 説得力を高めるか低下させるよう促すとともに, 特徴量の観点から, オリジナル音声と生成された音声の言語的変化を解析する。
以上の結果から, GPT-4oは, 説得性を人間のように最適化するよりも, 体系的な形式的な修正を施すことが示唆された。
- 参考スコア(独自算出の注目度): 2.8649371010678606
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study examines how large language models understand the concept of persuasiveness in public speaking by modifying speech transcripts from PhD candidates in the "Ma These en 180 Secondes" competition, using the 3MT French dataset. Our contributions include a novel methodology and an interpretable textual feature set integrating rhetorical devices and discourse markers. We prompt GPT-4o to enhance or diminish persuasiveness and analyze linguistic shifts between original and generated speech in terms of the new features. Results indicate that GPT-4o applies systematic stylistic modifications rather than optimizing persuasiveness in a human-like manner. Notably, it manipulates emotional lexicon and syntactic structures (such as interrogative and exclamatory clauses) to amplify rhetorical impact.
- Abstract(参考訳): 本研究では、「Ma These en 180 Secondes」コンペティションにおけるPhD候補の音声書き起こしを3MTフレンチデータセットを用いて修正することにより、大規模言語モデルが公言における説得性の概念をどのように理解するかを検討する。
我々のコントリビューションには、レトリックデバイスと談話マーカーを統合した、新しい方法論と解釈可能なテキスト特徴セットが含まれている。
我々は, GPT-4oに, 説得力を高めるか低下させるよう促すとともに, 特徴量の観点から, オリジナル音声と生成された音声の言語的変化を解析する。
以上の結果から, GPT-4oは, 説得性を人間のように最適化するよりも, 体系的な形式的な修正を施すことが示唆された。
特に、感情的な語彙や構文構造(疑問文や要約節など)を操り、修辞的な影響を増幅する。
関連論文リスト
- Analyzing Speech Unit Selection for Textless Speech-to-Speech Translation [23.757896930482342]
本研究は、下流タスクの研究を通して選択プロセスについて考察する。
再生性能のよいユニットは、翻訳効率を高めるユニットと必ずしも相関しない。
論文 参考訳(メタデータ) (2024-07-08T08:53:26Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - Measuring and Benchmarking Large Language Models' Capabilities to Generate Persuasive Language [41.052284715017606]
本研究では,Large Language Models (LLM) の説得的テキスト生成能力について検討する。
特定のドメインやタイプの説得に焦点を当てた先行研究とは対照的に、諸藩をまたいだ総合的研究を行う。
我々は、短いテキストのペア対からなる新しいデータセットPersuasive-Pairを構築し、LLMによって書き直され、説得言語を増幅または縮小する。
論文 参考訳(メタデータ) (2024-06-25T17:40:47Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts? [4.148732457277201]
オーサシップ検証は、2つの異なる書き込みサンプルが同じ著者を共有するかどうかを決定するタスクである。
本稿では,新たな課題を提起する書き起こし音声の属性について考察する。
そこで本研究では,人間が書き起こした会話音声の書き起こしに焦点をあてた話者属性のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-13T18:54:17Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。