Fugu-MT 論文翻訳(概要): Exploring Sound Change Over Time: A Review of Computational and Human Perception

論文の概要: Exploring Sound Change Over Time: A Review of Computational and Human Perception

arxiv url: http://arxiv.org/abs/2407.05092v1
Date: Sat, 6 Jul 2024 14:44:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 21:08:14.142484
Title: Exploring Sound Change Over Time: A Review of Computational and Human Perception
Title（参考訳）: 時間とともに変化する音の探索:計算と人間の知覚のレビュー
Authors: Siqi He, Wei Zhao,
Abstract要約: 我々は,手法やタスクの観点から,人間の知覚と計算を対比した先駆的なレビューを提供する。全体として、計算手法はコンピュータ駆動モデルに頼り、語源的データセットの歴史的音響変化を知覚する。人間のアプローチは、録音コーパスにおける継続的な音の変化を知覚するためにリスナー駆動モデルを使用する。
参考スコア（独自算出の注目度）: 2.8908326904081334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Computational and human perception are often considered separate approaches for studying sound changes over time; few works have touched on the intersection of both. To fill this research gap, we provide a pioneering review contrasting computational with human perception from the perspectives of methods and tasks. Overall, computational approaches rely on computer-driven models to perceive historical sound changes on etymological datasets, while human approaches use listener-driven models to perceive ongoing sound changes on recording corpora. Despite their differences, both approaches complement each other on phonetic and acoustic levels, showing the potential to achieve a more comprehensive perception of sound change. Moreover, we call for a comparative study on the datasets used by both approaches to investigate the influence of historical sound changes on ongoing changes. Lastly, we discuss the applications of sound change in computational linguistics, and point out that perceiving sound change alone is insufficient, as many processes of language change are complex, with entangled changes at syntactic, semantic, and phonetic levels.
Abstract（参考訳）: コンピュータと人間の知覚は、時間とともに音の変化を研究するための別々のアプローチとみなされることが多い。この研究ギャップを埋めるために、我々は、計算と人間の知覚を対比する先駆的なレビューを、方法やタスクの観点から提供する。全体として、コンピュータによるアプローチは、音韻論的データセットにおける歴史的音の変化を知覚するのに対して、人間のアプローチはリスナーによるモデルを使用して、記録コーパスにおける継続的な音の変化を知覚する。両者の相違にもかかわらず、両者のアプローチは音素レベルと音響レベルを補完し、より包括的な音変化知覚を実現する可能性を示している。さらに, 両手法が用いたデータセットの比較研究を行い, 歴史的音響変化が継続する変化に与える影響について検討する。最後に、計算言語学における音響変化の適用について論じ、言語変化の多くのプロセスが複雑であり、構文、意味、音韻レベルでの絡み合った変化が伴うので、音の変化のみを認識することは不十分である、と指摘する。

関連論文リスト

Modelling change in neural dynamics during phonetic accommodation [0.0]
我々は,音素調節における音素表現の変化の計算モデルを進めた。シャドーイング中に母音固有の収束度を示し,その後,ベースラインに戻す。音声変化の短期的調節と長期的パターンとの関係について考察する。
論文参考訳（メタデータ） (2025-02-03T10:00:29Z)
DyPCL: Dynamic Phoneme-level Contrastive Learning for Dysarthric Speech Recognition [12.923409319624254]
変形性音声認識のギャップを埋める動的音素レベルのコントラスト学習(DyPCL)法を提案する。音声の発話を音素レベルのコントラスト学習のための音素セグメントに分解し、動的接続性時間的分類アライメントを活用する。難易度による訓練への我々のアプローチは、話者の固有の多様性を軽減し、難易度の高い発話を識別する。
論文参考訳（メタデータ） (2025-01-31T10:25:42Z)
Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation [8.170174172545831]
本稿では,2024年における音響シーン・イベントの検出・分類の一環として,音シーン合成の課題に対処する。本稿では,Fr'echet Audio Distanceと知覚的アセスメントを組み合わせた評価手法を提案する。
論文参考訳（メタデータ） (2024-10-23T06:35:41Z)
Perception of Phonological Assimilation by Neural Speech Recognition Models [3.4173734484549625]
本稿では、ニューラルネットワーク認識モデルであるWav2Vec2が、同化音をどのように知覚するかを考察する。心理言語学的刺激を用いて、様々な言語文脈がモデル出力の補償パターンにどのように影響するかを分析する。
論文参考訳（メタデータ） (2024-06-21T15:58:22Z)
Evaluating Speaker Identity Coding in Self-supervised Models and Humans [0.42303492200814446]
話者のアイデンティティは、人間のコミュニケーションにおいて重要な役割を担い、社会的応用においてますます利用されている。本研究では, 話者識別において, 音響的表現よりも, 話者識別において, 異なる家族の自己指導的表現の方が有意に優れていることを示す。また、このような話者識別タスクは、これらの強力なネットワークの異なる層における音響情報表現の性質をよりよく理解するためにも利用できることを示す。
論文参考訳（メタデータ） (2024-06-14T20:07:21Z)
Learning to Communicate Functional States with Nonverbal Expressions for Improved Human-Robot Collaboration [3.5408317027307055]
協調ロボットは、スムーズな対話を可能にするために、内部状態を人間に効果的に伝える必要がある。雑音の多い人間のフィードバックに基づく強化学習アルゴリズムを提案し, 正確に解釈された非言語音声表現を生成する。
論文参考訳（メタデータ） (2024-04-30T04:18:21Z)
Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文参考訳（メタデータ） (2023-08-07T05:05:49Z)
Sources of Noise in Dialogue and How to Deal with Them [63.02707014103651]
トレーニング対話システムは、ノイズの多いトレーニング例や予期しないユーザ入力を扱うことが多い。その頻度にもかかわらず、現在、対話ノイズの正確な調査が欠けている。本稿では,対話システムで発生する雑音の分類を初めて構築することによって,このギャップを解消する。
論文参考訳（メタデータ） (2022-12-06T04:36:32Z)
Evaluating generative audio systems and their metrics [80.97828572629093]
本報告では,従来提案されていた音声再建のための目標尺度のセットと,聴取研究を併用して,最先端のアプローチについて検討する。その結果、現在使われている客観的指標は、現在のシステムの知覚的品質を記述するのに不十分であることが示唆された。
論文参考訳（メタデータ） (2022-08-31T21:48:34Z)
End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文参考訳（メタデータ） (2022-07-08T05:18:36Z)
Letters From the Past: Modeling Historical Sound Change Through Diachronic Character Embeddings [0.0]
歴史的綴りによる音質変化の検出に対処する。 PPMI文字埋め込みを用いて,分布間の時間的距離を比較することで,音質変化を捉えることができることを示す。モデルが検討中のいくつかの変更を識別し、それらが現れる意味のあるコンテキストを明らかにすることができることを示す。
論文参考訳（メタデータ） (2022-05-17T11:57:17Z)
Perception Point: Identifying Critical Learning Periods in Speech for Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文参考訳（メタデータ） (2021-10-13T05:30:50Z)
Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。我々の考えは、音声・視覚的観察から音声を除去することである。そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文参考訳（メタデータ） (2021-06-14T20:01:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。