論文の概要: What Do Prosody and Text Convey? Characterizing How Meaningful Information is Distributed Across Multiple Channels
- arxiv url: http://arxiv.org/abs/2512.16832v1
- Date: Thu, 18 Dec 2025 18:10:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.19666
- Title: What Do Prosody and Text Convey? Characterizing How Meaningful Information is Distributed Across Multiple Channels
- Title(参考訳): 韻律とテキスト・コンベイとは何か? : 複数のチャンネルに分散する意味情報の特徴
- Authors: Aditya Yadavalli, Tiago Pimentel, Tamar I Regev, Ethan Wilcox, Alex Warstadt,
- Abstract要約: 韻律は、しばしばメッセージの単語やテキストによって捉えられていない重要な情報を伝える。
本稿では,テキストではなく韻律だけで表現される情報量を定量化するための情報理論アプローチを提案する。
- 参考スコア(独自算出の注目度): 29.532302985753102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prosody -- the melody of speech -- conveys critical information often not captured by the words or text of a message. In this paper, we propose an information-theoretic approach to quantify how much information is expressed by prosody alone and not by text, and crucially, what that information is about. Our approach applies large speech and language models to estimate the mutual information between a particular dimension of an utterance's meaning (e.g., its emotion) and any of its communication channels (e.g., audio or text). We then use this approach to quantify how much information is conveyed by audio and text about sarcasm, emotion, and questionhood, using speech from television and podcasts. We find that for sarcasm and emotion the audio channel -- and by implication the prosodic channel -- transmits over an order of magnitude more information about these features than the text channel alone, at least when long-term context beyond the current sentence is unavailable. For questionhood, prosody provides comparatively less additional information. We conclude by outlining a program applying our approach to more dimensions of meaning, communication channels, and languages.
- Abstract(参考訳): 音声のメロディである韻律は、しばしばメッセージの言葉やテキストによって捉えられていない重要な情報を伝達する。
本稿では,テキストではなく韻律のみで表現される情報量を定量化するための情報理論的手法を提案する。
提案手法は、発話の意味の特定の次元(例えば、感情)と、そのコミュニケーションチャネル(例えば、音声やテキスト)の相互情報を推定するために、大きな音声と言語モデルを適用する。
次に、この手法を用いて、テレビやポッドキャストの音声を用いて、皮肉、感情、質問に関する音声やテキストによってどれだけの情報が伝えられるかを定量化する。
サルカズムや感情に対して、音声チャンネル(および韻律チャネル)は、テキストチャンネルだけでなく、少なくとも現在の文以外の長期的な文脈が利用できない場合にも、これらの特徴に関する情報を桁違いに送信する。
疑問として、プロソディは比較的少ない追加情報を提供する。
我々は、我々のアプローチを、意味、コミュニケーションチャンネル、言語といった多くの次元に適用するプログラムの概要をまとめて締めくくる。
関連論文リスト
- Layover or Direct Flight: Rethinking Audio-Guided Image Segmentation [65.7990140284317]
対象の接地、すなわち、人間の言葉による指示に基づく視覚的シーンへの関心対象の定位に焦点を当てる。
この可能性を探るため、単一単語音声命令の接地に着目してタスクを簡素化する。
以上の結果から,音声からの直接的接地は実現可能であるだけでなく,場合によっては書き起こしに基づく手法よりも優れていることが示唆された。
論文 参考訳(メタデータ) (2025-11-27T02:00:28Z) - Listening Between the Lines: Decoding Podcast Narratives with Language Modeling [17.51119928424848]
既存の大規模言語モデルは、一般的にニュース記事のようなより構造化されたテキストで訓練されており、人間のリスナーが物語のフレームを特定するのに頼っている微妙な手がかりを捉えるのに苦労している。
提案手法では,これらの粒度ラベルを用いて,より広範な談話傾向を明らかにする。
論文 参考訳(メタデータ) (2025-11-07T15:12:06Z) - The time scale of redundancy between prosody and linguistic context [22.04241078302997]
単語の韻律的特徴は、拡張された過去の文脈を確実に予測する必要がある。
また、単語の韻律的特徴は、将来の単語と多少の冗長性を示すが、1-2ワードの短いスケールしか持たない。
論文 参考訳(メタデータ) (2025-03-14T17:48:23Z) - Information Theory of Meaningful Communication [0.0]
シャノンの論文では、印刷された英語のエントロピーは固定的な処理として扱われ、1文字あたり約1ビットと推定された。
本研究では,最近開発された大規模言語モデルを用いて,意味ある物語に伝達される情報を節ごとの意味のビットで定量化することができることを示す。
論文 参考訳(メタデータ) (2024-11-19T18:51:23Z) - Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - It's not what you said, it's how you said it: discriminative perception
of speech as a multichannel communication system [13.150821247850876]
人は、その言葉の語彙チャンネルと、その言葉の言葉の非語彙チャンネルを用いて、音声による対話を通じて、非常に効果的に情報を伝達する。
本研究は,音声コミュニケーションの人間知覚を,これらのチャネルをまたいで情報がどのようにエンコードされるのかをよりよく理解するための手段として検討するものである。
対話における真の発話と、同じ語彙内容の他の文脈から抽出された発話とを、リスナーが区別できるかどうかを、新しい行動タスクテストで検証する。
論文 参考訳(メタデータ) (2021-05-01T14:30:30Z) - Paragraph-level Commonsense Transformers with Recurrent Memory [77.4133779538797]
物語からコヒーレントなコモンセンス推論を生成するために,段落レベルの情報を含む談話認識モデルを訓練する。
以上の結果から,PARA-COMETは文レベルのベースライン,特にコヒーレントかつ新規な推論に優れていた。
論文 参考訳(メタデータ) (2020-10-04T05:24:12Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Unsupervised Speech Decomposition via Triple Information Bottleneck [63.55007056410914]
音声情報は、言語内容、音色、ピッチ、リズムの4つの構成要素に大別できる。
本稿では,3つの慎重に設計された情報ボトルネックを導入することで,音声をその4つの構成要素に盲目的に分解できるSpeechSplitを提案する。
論文 参考訳(メタデータ) (2020-04-23T16:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。