論文の概要: Bottleneck Transformer-Based Approach for Improved Automatic STOI Score Prediction
- arxiv url: http://arxiv.org/abs/2602.15484v1
- Date: Tue, 17 Feb 2026 10:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.035261
- Title: Bottleneck Transformer-Based Approach for Improved Automatic STOI Score Prediction
- Title(参考訳): ボトルネック変圧器を用いた自動STOIスコア予測の高速化
- Authors: Amartyaveer, Murali Kadambi, Chandra Mohan Sharma, Anupam Mondal, Prasanta Kumar Ghosh,
- Abstract要約: 本稿では,ボトルネックトランスフォーマアーキテクチャを用いて,STOI(Short-Time Objective Intelligibility)メトリクスを予測する新しい手法を提案する。
両シナリオの相関性は高く,平均2乗誤差は低かった。
- 参考スコア(独自算出の注目度): 16.426476430697587
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this study, we have presented a novel approach to predict the Short-Time Objective Intelligibility (STOI) metric using a bottleneck transformer architecture. Traditional methods for calculating STOI typically requires clean reference speech, which limits their applicability in the real world. To address this, numerous deep learning-based nonintrusive speech assessment models have garnered significant interest. Many studies have achieved commendable performance, but there is room for further improvement. We propose the use of bottleneck transformer, incorporating convolution blocks for learning frame-level features and a multi-head self-attention (MHSA) layer to aggregate the information. These components enable the transformer to focus on the key aspects of the input data. Our model has shown higher correlation and lower mean squared error for both seen and unseen scenarios compared to the state-of-the-art model using self-supervised learning (SSL) and spectral features as inputs.
- Abstract(参考訳): そこで本研究では,ボトルネックトランスフォーマアーキテクチャを用いたSTOI(Short-Time Objective Intelligibility)メトリクスの予測手法を提案する。
STOIの従来の計算法は、典型的にはクリーンな参照音声を必要とする。
これを解決するために、多くのディープラーニングに基づく非侵入的音声評価モデルが大きな関心を集めている。
多くの研究は賞賛に値する性能を達成したが、さらなる改善の余地はある。
本稿では、フレームレベルの特徴を学習するための畳み込みブロックと、情報を集約するためにMHSA(Multi-head Self-attention)層を組み込んだボトルネックトランスフォーマーを提案する。
これらのコンポーネントにより、トランスフォーマーは入力データの重要な側面に集中することができる。
我々のモデルは,自己教師付き学習(SSL)とスペクトル特徴を入力として用いた最先端モデルと比較して,高い相関と平均2乗誤差を示した。
関連論文リスト
- VARMA-Enhanced Transformer for Time Series Forecasting [4.982130518684668]
VARMAformerは、古典的な時系列分析の原理で、クロスアテンションのみのフレームワークの効率を相乗化する新しいアーキテクチャである。
これらの古典的な洞察を現代のバックボーンに融合させることで、VARMAformerはグローバル、長距離の依存関係と局所的な統計構造の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-09-05T03:32:51Z) - PESTO: Real-Time Pitch Estimation with Self-supervised Transposition-equivariant Objective [28.829305407116962]
PESTOは単ピッチ推定のための自己教師付き学習手法である。
キャッシュ型畳み込みを用いたストリーム可能なVQT実装を開発した。
論文 参考訳(メタデータ) (2025-08-02T21:00:55Z) - VSFormer: Value and Shape-Aware Transformer with Prior-Enhanced Self-Attention for Multivariate Time Series Classification [47.92529531621406]
識別パターン(形状)と数値情報(値)の両方を組み込んだVSFormerを提案する。
さらに、教師付き情報から派生したクラス固有の事前情報を抽出し、位置エンコーディングを強化する。
30のUEAアーカイブデータセットに対する大規模な実験は、SOTAモデルと比較して、我々の手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-21T07:31:22Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Research on Personalized Compression Algorithm for Pre-trained Models Based on Homomorphic Entropy Increase [2.6513322539118582]
我々は、現在のAI分野における2つの重要な技術の課題と進化を探求する:ビジョントランスフォーマーモデルと大規模言語モデル(LLM)。
Vision Transformerは、イメージを小さな断片に分割することで、グローバルな情報をキャプチャするが、その高い参照数とモバイル機器へのオーバヘッド制限の配置を計算する。
LLMは自然言語処理に革命をもたらしたが、デプロイメントの課題にも直面している。
論文 参考訳(メタデータ) (2024-08-16T11:56:49Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。