Fugu-MT 論文翻訳(概要): An Empirical Analysis of Speech Self-Supervised Learning at Multiple Resolutions

論文の概要: An Empirical Analysis of Speech Self-Supervised Learning at Multiple Resolutions

arxiv url: http://arxiv.org/abs/2410.23955v1
Date: Thu, 31 Oct 2024 14:09:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.845076
Title: An Empirical Analysis of Speech Self-Supervised Learning at Multiple Resolutions
Title（参考訳）: 複数分解能における自己教師付き音声学習の実証分析
Authors: Theo Clark, Benedetta Cevoli, Eloy de Jong, Timofey Abramski, Jamie Dougherty,
Abstract要約: 我々は,CCA(Canonical correlation Analysis)とMI(Mutual Information)に着目し,マルチスケールアーキテクチャにおけるレイヤワイズ表現の初期解析を行う。 SuPERBタスクの性能改善は、主にダウンサンプリング自体よりも、補助的な低分解能損失によるものであることが判明した。これらの知見はMR-HuBERTのマルチスケールな性質に関する仮定に挑戦し、より良い表現の学習から計算効率を遠ざけることの重要性を動機付けている。
参考スコア（独自算出の注目度）: 0.3495246564946556
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-supervised learning (SSL) models have become crucial in speech processing, with recent advancements concentrating on developing architectures that capture representations across multiple timescales. The primary goal of these multi-scale architectures is to exploit the hierarchical nature of speech, where lower-resolution components aim to capture representations that align with increasingly abstract concepts (e.g., from phones to words to sentences). Although multi-scale approaches have demonstrated some improvements over single-scale models, the precise reasons for these enhancements have poor empirical support. In this study, we present an initial analysis of layer-wise representations in multi-scale architectures, with a focus on Canonical Correlation Analysis (CCA) and Mutual Information (MI). We apply this analysis to Multi-Resolution HuBERT (MR-HuBERT) and find that (1) the improved performance on SUPERB tasks is primarily due to the auxiliary low-resolution loss rather than the downsampling itself, and (2) downsampling to lower resolutions neither improves downstream performance nor correlates with higher-level information (e.g., words), though it does improve computational efficiency. These findings challenge assumptions about the multi-scale nature of MR-HuBERT and motivate the importance of disentangling computational efficiency from learning better representations.
Abstract（参考訳）: 自己教師付き学習(SSL)モデルは、音声処理において重要となり、近年の進歩は、複数の時間スケールで表現をキャプチャするアーキテクチャの開発に集中している。これらのマルチスケールアーキテクチャの第一の目的は、低解像度のコンポーネントが、より抽象的な概念(例えば、電話から言葉から文まで)に合わせて表現をキャプチャすることを目的としている、音声の階層的な性質を活用することである。マルチスケールアプローチではシングルスケールモデルよりもいくつかの改善が示されているが、これらの拡張の正確な理由は実証的サポートが不十分である。本研究では,CCA(Canonical correlation Analysis)とMI(Mutual Information)に着目し,マルチスケールアーキテクチャにおけるレイヤワイズ表現の初期解析を行う。この分析をMulti-Resolution HuBERT (MR-HuBERT) に適用し,(1) SUPERBタスクにおける改善性能は,主にダウンサンプリング自体よりも補助的な低分解能損失によるものであり,(2)低分解能へのダウンサンプリングはダウンストリーム性能を改善したり,高レベルの情報(単語など)と相関しないが,計算効率は向上することを示した。これらの知見はMR-HuBERTのマルチスケールな性質に関する仮定に挑戦し、より良い表現の学習から計算効率を遠ざけることの重要性を動機付けている。

関連論文リスト

A Survey of Scaling in Large Language Model Reasoning [62.92861523305361]
大規模言語モデル(LLM)推論におけるスケーリングの総合的な検討について述べる。我々は、多段階推論と論理的整合性を改善する推論ステップにおけるスケーリングを分析する。我々は、反復モデルの改善による最適化に焦点を当て、トレーニング可能な推論のスケーリングについて論じる。
論文参考訳（メタデータ） (2025-04-02T23:51:27Z)
Reasoning of Large Language Models over Knowledge Graphs with Super-Relations [53.14275361052276]
本稿では,ReKnoSフレームワークを提案する。我々のフレームワークの主な利点は、スーパーリレーションを通して複数のリレーションパスを含めることである。その結果、ReKnoSは既存の最先端ベースラインよりも優れた性能を示し、平均精度は2.92%向上した。
論文参考訳（メタデータ） (2025-03-28T06:11:04Z)
Fairness-Driven LLM-based Causal Discovery with Active Learning and Dynamic Scoring [1.5498930424110338]
因果発見(英: Causal discovery, CD)は、様々な分野において観測される現象の根底にある因果関係を明らかにすることで、多くの科学分野において重要な役割を担っている。 CDアルゴリズムの大幅な進歩にもかかわらず、その応用は大規模データの高い計算要求と複雑さのために困難に直面している。本稿では,CDにLarge Language Models(LLM)を活用するフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-21T22:58:26Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-12T12:20:27Z)
Toward Robust Incomplete Multimodal Sentiment Analysis via Hierarchical Representation Learning [21.127950337002776]
マルチモーダル・センティメント・アナリティクス(MSA)は、複数のモーダルを通して人間の感情を理解し、認識することを目的とした重要な研究分野である。本稿では,不確実なモダリティの下でのタスクのための階層表現学習フレームワーク(HRLF)を提案する。 HRLFは、不確実なモダリティ欠失例において、MSA性能を著しく改善することを示した。
論文参考訳（メタデータ） (2024-11-05T04:04:41Z)
Utilizing Large Language Models for Event Deconstruction to Enhance Multimodal Aspect-Based Sentiment Analysis [2.1329326061804816]
本稿では,イベント分解のためのLarge Language Models (LLMs)を導入し,マルチモーダル・アスペクト・ベース・センチメント分析(MABSA-RL)のための強化学習フレームワークを提案する。実験の結果,MABSA-RLは2つのベンチマークデータセットにおいて既存手法よりも優れていた。
論文参考訳（メタデータ） (2024-10-18T03:40:45Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。 MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文参考訳（メタデータ） (2024-09-09T17:44:00Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Efficient Multi-Model Fusion with Adversarial Complementary Representation Learning [26.393644289860084]
単一モデルシステムは、話者検証(SV)や画像分類といったタスクにおいて、しばしば欠陥に悩まされる。本稿では、新たに訓練されたモデルが以前取得した知識を回避できる逆相補表現学習(ACoRL)フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-24T07:47:55Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。 AMPLIFYは,幅広いタスクに対して約10～25%の精度向上を実現している。
論文参考訳（メタデータ） (2023-05-19T04:46:04Z)
Synergies between Disentanglement and Sparsity: Generalization and Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文参考訳（メタデータ） (2022-11-26T21:02:09Z)
Hierarchical Similarity Learning for Aliasing Suppression Image Super-Resolution [64.15915577164894]
エイリアスの影響を抑制するために階層画像超解像ネットワーク(HSRNet)を提案する。 HSRNetは、他の作品よりも定量的かつ視覚的なパフォーマンスを向上し、エイリアスをより効果的に再送信する。
論文参考訳（メタデータ） (2022-06-07T14:55:32Z)
Efficient Iterative Amortized Inference for Learning Symmetric and Disentangled Multi-Object Representations [8.163697683448811]
本稿では,オブジェクト中心表現の教師なし学習のための効率的なフレームワークであるEfficientMORLを紹介する。対称性と非絡み合いの両方を必要とすることによる最適化の課題は、高コスト反復的償却推論によって解決できることを示す。標準のマルチオブジェクト・ベンチマークでは,強いオブジェクト分解と歪みを示しながら,ほぼ1桁の高速なトレーニングとテスト時間推定を実現している。
論文参考訳（メタデータ） (2021-06-07T14:02:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。