論文の概要: Towards a Universal Method for Meaningful Signal Detection
- arxiv url: http://arxiv.org/abs/2408.00016v2
- Date: Wed, 4 Sep 2024 10:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 01:49:25.772311
- Title: Towards a Universal Method for Meaningful Signal Detection
- Title(参考訳): ユビキタスな信号検出法に向けて
- Authors: Louis Mahon,
- Abstract要約: 人間の発話と特定の動物の発声は、ある発話が伝達する内容を解読できるため、意味のある内容を伝えることができることが知られている。
本稿では,信号が意味を持つかどうかを判断するための代替手法として,信号自体を解析し,伝達された意味とは無関係であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is known that human speech and certain animal vocalizations can convey meaningful content because we can decipher the content that a given utterance does convey. This paper explores an alternative approach to determining whether a signal is meaningful, one that analyzes only the signal itself and is independent of what the conveyed meaning might be. We devise a method that takes a waveform as input and outputs a score indicating its degree of `meaningfulness`. We cluster contiguous portions of the input to minimize the total description length, and then take the length of the code of the assigned cluster labels as meaningfulness score. We evaluate our method empirically, against several baselines, and show that it is the only one to give a high score to human speech in various languages and with various speakers, a moderate score to animal vocalizations from birds and orcas, and a low score to ambient noise from various sources.
- Abstract(参考訳): 人間の発話と特定の動物の発声は、ある発話が伝達する内容を解読できるため、意味のある内容を伝えることができることが知られている。
本稿では,信号が意味を持つかどうかを判断するための代替手法として,信号自体を解析し,伝達された意味とは無関係であることを示す。
波形を入力として取り出す手法を考案し,その「意味豊かさ」の度合いを示すスコアを出力する。
入力の連続部分をクラスタ化して、総記述長を最小化し、割り当てられたクラスタラベルのコードの長さを有意性スコアとする。
提案手法は,様々な基準に対して実証的に評価し,様々な言語および様々な話者による人間の発話に高いスコアを与える唯一の方法であり,鳥類やオルカの動物声に対する適度なスコア,および様々な音源からの環境騒音に対する低スコアであることを示す。
関連論文リスト
- Towards Dog Bark Decoding: Leveraging Human Speech Processing for Automated Bark Classification [23.974783158267428]
犬の樹皮分類課題に対処するために,人間の音声で事前訓練した自己教師付き音声表現モデルの利用について検討する。
音声埋め込み表現の使用は、より単純な分類基準よりも大幅に改善されることを示す。
また、大規模人間の音声音響学で事前訓練されたモデルでは、いくつかのタスクでさらなる性能向上が期待できる。
論文 参考訳(メタデータ) (2024-04-29T14:41:59Z) - Towards Lexical Analysis of Dog Vocalizations via Online Videos [19.422796780268605]
本研究は, 犬声のセマンティクスに関するデータ駆動調査を行い, 異なる音種と一貫したセマンティクスを関連づけることにより, 犬声のセマンティクスについて検討した。
そこで我々はまず,シバイヌの音の新たなデータセットと,YouTubeから収集した位置情報や活動などのコンテキスト情報を提示する。
犬の発声とそれに対応する位置と活動の条件付き確率の分析から, 犬音の意味的意味に関する過去の研究の裏付けとなる証拠が発見された。
論文 参考訳(メタデータ) (2023-09-21T23:53:14Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Unsupervised Multimodal Word Discovery based on Double Articulation
Analysis with Co-occurrence cues [7.332652485849632]
ヒトの幼児は、言語に関する最小限の事前知識で口頭語彙を取得する。
本研究では,音声単位を発見するための教師なし学習手法を提案する。
提案手法は教師なし学習を用いて音声信号から単語と音素を取得することができる。
論文 参考訳(メタデータ) (2022-01-18T07:31:59Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Measuring Memorization Effect in Word-Level Neural Networks Probing [0.9156064716689833]
そこで,本研究では,学習における目に見える単語と見えない単語の対称選択に基づいて,記憶効果を簡易に測定する手法を提案する。
提案手法は, 探索装置で発生した記憶量の定量化に有効であり, 適切な設定が選択可能であり, 検証結果が信頼性推定値で解釈可能である。
論文 参考訳(メタデータ) (2020-06-29T14:35:42Z) - Cross-modal variational inference for bijective signal-symbol
translation [11.444576186559486]
本稿では,この問題を密度推定タスクに変換することで,信号・記号変換の手法を提案する。
この結合分布を2つの異なる変分オートエンコーダで推定する。
本稿では,音符,オクターブ,ダイナミクスの記号を用いたモデル実験を行い,音楽の書き起こしとラベル制約による音声生成の基本的なステップを構成する。
論文 参考訳(メタデータ) (2020-02-10T15:25:48Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。