Fugu-MT 論文翻訳(概要): A Rational Analysis of the Speech-to-Song Illusion

論文の概要: A Rational Analysis of the Speech-to-Song Illusion

arxiv url: http://arxiv.org/abs/2402.06992v1
Date: Sat, 10 Feb 2024 16:54:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 18:08:43.249544
Title: A Rational Analysis of the Speech-to-Song Illusion
Title（参考訳）: 音声から音声への錯覚の合理的解析
Authors: Raja Marjieh, Pol van Rijn, Ilia Sucholutsky, Harin Lee, Thomas L. Griffiths, Nori Jacoby
Abstract要約: 音声と歌の錯覚は強靭な心理学的現象であり、言葉の文が繰り返されるにつれて、ますます音楽的になる。そこで本研究では,テキストをベースとした新しい韻文と歌詞の錯覚を提案する。我々は、この新たな錯覚を人間の参加者と大きな言語モデルの両方で証明する。
参考スコア（独自算出の注目度）: 24.99253864223353
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The speech-to-song illusion is a robust psychological phenomenon whereby a spoken sentence sounds increasingly more musical as it is repeated. Despite decades of research, a complete formal account of this transformation is still lacking, and some of its nuanced characteristics, namely, that certain phrases appear to transform while others do not, is not well understood. Here we provide a formal account of this phenomenon, by recasting it as a statistical inference whereby a rational agent attempts to decide whether a sequence of utterances is more likely to have been produced in a song or speech. Using this approach and analyzing song and speech corpora, we further introduce a novel prose-to-lyrics illusion that is purely text-based. In this illusion, simply duplicating written sentences makes them appear more like song lyrics. We provide robust evidence for this new illusion in both human participants and large language models.
Abstract（参考訳）: 音声から歌への錯覚は強固な心理学的現象であり、話し言葉が繰り返されるにつれてより音楽的になる。数十年にわたる研究にもかかわらず、この変換の完全な公式な説明はいまだに欠けており、いくつかのニュアンスな特徴、すなわち、あるフレーズが変化しているように見える一方で、他のフレーズが変化していないという特徴はよく理解されていない。ここでは,この現象を統計的推論として再キャストすることにより,有理エージェントが歌や音声において発話のシーケンスが生成される確率が高いか否かを判断する。このアプローチを用いて歌と音声のコーパスを解析し、純粋にテキストに基づく新しい散文と歌詞の錯覚を導入する。この錯覚の中では、単に文章を複製するだけで歌の歌詞のように見える。我々は、この新たな錯覚を人間の参加者と大きな言語モデルの両方で証明する。

関連論文リスト

Bob's Confetti: Phonetic Memorization Attacks in Music and Video Generation [36.23831842611136]
生成モデルにおける記憶は、冗長テキストの再生をはるかに超えている。我々は、これらのタスクで訓練されたモデルが著作権のあるコンテンツを漏洩する、新しい種類のモダリティ記憶方法を明らかにした。音韻的に類似するが意味的に無関係な歌詞を用いて、記憶された曲を再学習するよう促すことができることを示す。
論文参考訳（メタデータ） (2025-07-23T21:11:47Z)
Agent-Driven Large Language Models for Mandarin Lyric Generation [2.2221991003992967]
マンダリンのような音節の輪郭言語では、ピッチの輪郭はメロディとトーンの両方に影響され、歌詞とメロディの適合性が変化する。本研究は,作詞家やメロディ作家が作曲過程に適合していることを確認する。本研究では,メロディから歌詞へのタスクをサブタスクに分解するマルチエージェントシステムを開発し,各エージェントが韻律,音節数,歌詞・メロディのアライメント,一貫性を制御している。
論文参考訳（メタデータ） (2024-10-02T12:01:32Z)
Exploring and Applying Audio-Based Sentiment Analysis in Music [0.0]
音楽的感情を解釈する計算モデルの能力は、ほとんど解明されていない。本研究は,(1)音楽クリップの感情を時間とともに予測し,(2)時系列の次の感情値を決定し,シームレスな遷移を保証することを目的とする。
論文参考訳（メタデータ） (2024-02-22T22:34:06Z)
Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文参考訳（メタデータ） (2023-05-12T20:57:20Z)
Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-12-08T03:29:04Z)
Metaphorical Language Change Is Self-Organized Criticality [0.0]
この論文は、比喩的言語変化が自己組織的臨界状態として適合すると主張している。比喩的構成の統計的プロファイルと先行条件の固有の生成規則を提供する。
論文参考訳（メタデータ） (2022-11-19T14:38:38Z)
Genre-conditioned Acoustic Models for Automatic Lyrics Transcription of Polyphonic Music [73.73045854068384]
本稿では,新ジャンルネットワークを用いたポリフォニック音楽の歌詞の書き起こしを提案する。提案するネットワークは,事前学習されたモデルパラメータを採用し,階層間のジャンルアダプタを組み込んで,歌詞とジャンルのペアのジャンルの特色を抽出する。実験の結果,提案するジャンル条件付きネットワークは既存の歌詞の書き起こしシステムよりも優れていた。
論文参考訳（メタデータ） (2022-04-07T09:15:46Z)
Textless Speech Emotion Conversion using Decomposed and Discrete Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文参考訳（メタデータ） (2021-11-14T18:16:42Z)
Disambiguatory Signals are Stronger in Word-initial Positions [48.18148856974974]
単語の初期と後期のセグメントの情報を比較するための既存の手法の相違点を指摘する。何百もの言語にまたがって、言葉で情報を読み込むという言語横断的な傾向があるという証拠が見つかりました。
論文参考訳（メタデータ） (2021-02-03T18:19:16Z)
Hearings and mishearings: decrypting the spoken word [0.0]
本研究では,誤聴の有無を考慮した個々の単語の音声知覚モデルを提案する。例えば、単語長がしきい値以下である場合には、音声知覚が容易であることを示し、静的な遷移で識別する。我々はこれを単語認識の力学に拡張し、個別の孤立した誤聴と連続した誤聴のクラスタの区別を強調する直感的なアプローチを提案する。
論文参考訳（メタデータ） (2020-09-01T13:58:51Z)
"Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文参考訳（メタデータ） (2020-06-12T06:51:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。