Fugu-MT 論文翻訳(概要): Measuring Sound Symbolism in Audio-visual Models

論文の概要: Measuring Sound Symbolism in Audio-visual Models

arxiv url: http://arxiv.org/abs/2409.12306v2
Date: Thu, 31 Oct 2024 16:49:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 15:26:10.200031
Title: Measuring Sound Symbolism in Audio-visual Models
Title（参考訳）: 音響視覚モデルにおける音の象徴性の測定
Authors: Wei-Cheng Tseng, Yi-Jen Shih, David Harwath, Raymond Mooney,
Abstract要約: 本研究では,事前学習した音声視覚モデルが,音と視覚表現の関連性を示すかどうかを検討する。この結果から,人間の言語処理との関連が明らかとなり,認知アーキテクチャや機械学習戦略の洞察が得られた。
参考スコア（独自算出の注目度）: 21.876743976994614
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Audio-visual pre-trained models have gained substantial attention recently and demonstrated superior performance on various audio-visual tasks. This study investigates whether pre-trained audio-visual models demonstrate non-arbitrary associations between sounds and visual representations$\unicode{x2013}$known as sound symbolism$\unicode{x2013}$which is also observed in humans. We developed a specialized dataset with synthesized images and audio samples and assessed these models using a non-parametric approach in a zero-shot setting. Our findings reveal a significant correlation between the models' outputs and established patterns of sound symbolism, particularly in models trained on speech data. These results suggest that such models can capture sound-meaning connections akin to human language processing, providing insights into both cognitive architectures and machine learning strategies.
Abstract（参考訳）: 近年,視覚前訓練モデルが注目され,様々な視覚課題において優れた性能を示した。本研究では、事前学習した音声視覚モデルが、音と視覚表現の非任意関係を示すかどうかを考察する。我々は、合成画像と音声サンプルを用いた特殊なデータセットを開発し、ゼロショット設定における非パラメトリックアプローチを用いてこれらのモデルを評価した。以上の結果から,特に音声データに基づいて訓練されたモデルにおいて,モデル出力と音響記号の確立したパターンとの間に有意な相関が認められた。これらの結果は、そのようなモデルが人間の言語処理に類似した音による関係を捉え、認知アーキテクチャと機械学習戦略の両方に関する洞察を与えることを示唆している。

関連論文リスト

Late fusion ensembles for speech recognition on diverse input audio representations [0.0]
音声音声の多種多様な表現について検討し、E-Branchformerモデルの後期融合アンサンブルの性能に与える影響について検討する。我々は、同等のテクニックでトレーニングされた最先端のモデルに対して、1%から14%$の改善が依然として達成可能であることを示す。
論文参考訳（メタデータ） (2024-12-01T10:19:24Z)
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文参考訳（メタデータ） (2024-10-21T15:55:27Z)
Developing Acoustic Models for Automatic Speech Recognition in Swedish [6.5458610824731664]
本稿では,トレーニング可能なシステムを用いた自動連続音声認識について述べる。この研究の目的はスウェーデン語話者のための音響モデルを構築することである。
論文参考訳（メタデータ） (2024-04-25T12:03:14Z)
AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文参考訳（メタデータ） (2023-09-19T17:35:16Z)
Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文参考訳（メタデータ） (2023-05-03T08:25:37Z)
Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文参考訳（メタデータ） (2022-08-28T10:03:55Z)
Self-supervised models of audio effectively explain human cortical responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文参考訳（メタデータ） (2022-05-27T22:04:02Z)
Self-supervised Graphs for Audio Representation Learning with Limited Labeled Data [24.608764078208953]
サブグラフは、ラベル付きオーディオサンプルとラベルなしオーディオサンプルの関係を利用するために、利用可能なトレーニングデータのプール全体をサンプリングすることによって構築される。我々は,3つのベンチマーク音声データベースと,音響事象検出と音声感情認識の2つのタスクについて,そのモデルを評価する。我々のモデルはコンパクト(240kパラメータ)であり、様々な種類の信号ノイズに対して堅牢な一般化された音声表現を生成することができる。
論文参考訳（メタデータ） (2022-01-31T21:32:22Z)
Audiovisual Saliency Prediction in Uncategorized Video Sequences based on Audio-Video Correlation [0.0]
本研究の目的は,低レベルの音声と映像の特徴を同期して計算した音声サリエンシーマップと視覚サリエンシーマップを補完する汎用的な音声/ビデオサリエンシーモデルを提供することである。提案モデルは,diemビデオデータセットの眼固定データに対する異なる基準を用いて評価した。
論文参考訳（メタデータ） (2021-01-07T14:22:29Z)
COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文参考訳（メタデータ） (2020-06-15T13:17:18Z)
Curriculum Audiovisual Learning [113.20920928789867]
本稿では,ソフトクラスタリングモジュールを音響・視覚コンテンツ検出装置として導入するフレキシブル・オーディオビジュアル・モデルを提案する。音声視覚学習の難しさを軽減するため,簡単なシーンから複雑なシーンまでモデルを訓練する新しい学習戦略を提案する。本手法は,外的視覚的監督に言及することなく,音の分離において同等の性能を示す。
論文参考訳（メタデータ） (2020-01-26T07:08:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。