論文の概要: SAND Challenge: Four Approaches for Dysartria Severity Classification
- arxiv url: http://arxiv.org/abs/2512.02669v1
- Date: Tue, 02 Dec 2025 11:51:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.850344
- Title: SAND Challenge: Four Approaches for Dysartria Severity Classification
- Title(参考訳): SAND チャレンジ:Dysartria Severity 分類のための4つのアプローチ
- Authors: Gauri Deshpande, Harish Battula, Ashish Panda, Sunil Kumar Kopparapu,
- Abstract要約: 本稿では, 難治度を分類するための4つの異なるモデリング手法について統一的な研究を行った。
すべてのモデルは、共通の音声記録データセットを使用して、同じ5つのクラス分類タスクに取り組む。
その結果,XGBoostアンサンブルは最大マクロF1(0.86)を達成する一方,深層学習モデル(ViT,CNN,BiLSTM)は競合するF1スコア(0.70)を得ることができた。
- 参考スコア(独自算出の注目度): 5.861388632093299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a unified study of four distinct modeling approaches for classifying dysarthria severity in the Speech Analysis for Neurodegenerative Diseases (SAND) challenge. All models tackle the same five class classification task using a common dataset of speech recordings. We investigate: (1) a ViT-OF method leveraging a Vision Transformer on spectrogram images, (2) a 1D-CNN approach using eight 1-D CNN's with majority-vote fusion, (3) a BiLSTM-OF approach using nine BiLSTM models with majority vote fusion, and (4) a Hierarchical XGBoost ensemble that combines glottal and formant features through a two stage learning framework. Each method is described, and their performances on a validation set of 53 speakers are compared. Results show that while the feature-engineered XGBoost ensemble achieves the highest macro-F1 (0.86), the deep learning models (ViT, CNN, BiLSTM) attain competitive F1-scores (0.70) and offer complementary insights into the problem.
- Abstract(参考訳): 本稿では,神経変性疾患(SAND)に対する音声解析において,難聴度を分類するための4つの異なるモデリング手法について統一的に検討した。
すべてのモデルは、共通の音声記録データセットを使用して、同じ5つのクラス分類タスクに取り組む。
本研究では,(1)視覚変換器をスペクトログラム画像に活用したViT-OF法,(2)多数投票融合1-D CNNを用いた1D-CNN法,(3)多数投票融合9つのBiLSTMモデルを用いたBiLSTM-OF法,(4)2段階学習フレームワークによる声門・フォルマント特徴を組み合わせた階層的XGBoostアンサンブルについて検討する。
それぞれの手法を記述し、53人の話者による検証セットの性能を比較した。
XGBoostアンサンブルは最大マクロF1(0.86)を達成する一方で、ディープラーニングモデル(ViT, CNN, BiLSTM)は競争力のあるF1スコア(0.70)を獲得し、問題に対する補完的な洞察を提供する。
関連論文リスト
- Benchmarking Deep Learning Models for Laryngeal Cancer Staging Using the LaryngealCT Dataset [9.232485731929026]
The Cancer Imaging Archive (TCIA)の6つのコレクションから収集した1029個のCTスキャンのベンチマークであるLaryngealCTについて紹介する。
喉頭を含む一様1mm等方体積の興味を臨床専門家が検証した弱教師付きパラメータ探索フレームワークを用いて抽出した。
3D CNN (AUC-0.881, F1-macro-0.821) と ResNet18 (AUC-0.892, F1-macro-0.646) はそれぞれ2つのタスクで他のモデルを上回った。
論文 参考訳(メタデータ) (2025-10-13T06:25:19Z) - A Hybrid CNN-VSSM model for Multi-View, Multi-Task Mammography Analysis: Robust Diagnosis with Attention-Based Fusion [5.15423063632115]
乳がんの早期かつ正確な検診は乳がん検出に不可欠である。
既存のAIアプローチは、単一ビューのインプットや単一タスクのアウトプットに注目して、不足している。
本研究では,4つの標準マンモグラフィビュー全てを処理する,新しいマルチビュー・マルチタスクハイブリッドディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-22T18:52:18Z) - TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models [123.17643568298116]
本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。
これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。
提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
論文 参考訳(メタデータ) (2025-06-13T03:19:47Z) - GroupMamba: Efficient Group-Based Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、最近、四次計算の複雑さで長距離依存を捉えることを約束している。
しかし、純粋にSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最先端の性能を達成するために重要な課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - ClusterFormer: Clustering As A Universal Visual Learner [80.79669078819562]
CLUSTERFORMERは、トランスフォーマーを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルである。
不均一な視覚タスクに様々なレベルのクラスタリングの粒度で対処することができる。
その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
論文 参考訳(メタデータ) (2023-09-22T22:12:30Z) - An Efficient End-to-End Deep Neural Network for Interstitial Lung
Disease Recognition and Classification [0.5424799109837065]
本稿では、IDDパターンを分類するためのエンドツーエンドのディープ畳み込みニューラルネットワーク(CNN)を提案する。
提案モデルでは,カーネルサイズが異なる4つの畳み込み層と,Rectified Linear Unit (ReLU) アクティベーション機能を備える。
128のCTスキャンと5つのクラスからなる21328の画像パッチからなるデータセットを用いて、提案モデルのトレーニングと評価を行う。
論文 参考訳(メタデータ) (2022-04-21T06:36:10Z) - Rotation Invariance and Extensive Data Augmentation: a strategy for the
Mitosis Domain Generalization (MIDOG) Challenge [1.52292571922932]
我々は,MIDOG 2021コンペティションに参加するための戦略を提示する。
このコンペティションの目的は、目に見えないターゲットスキャナーで取得した画像に対する解の一般化を評価することである。
本稿では,最先端のディープラーニング手法の組み合わせに基づく解を提案する。
論文 参考訳(メタデータ) (2021-09-02T10:09:02Z) - UTNLP at SemEval-2021 Task 5: A Comparative Analysis of Toxic Span
Detection using Attention-based, Named Entity Recognition, and Ensemble
Models [6.562256987706127]
本稿では,有害なスパン検出に関するSemEval-2021共有タスク5における,我々のチーム,UTNLP,方法論と結果について述べる。
実験はキーワードベースのモデルから始まり、アテンションベース、名前付きエンティティベース、トランスフォーマーベース、アンサンブルモデルが続く。
私たちの最良のアプローチ、アンサンブルモデルは、競争の評価段階で0.684のF1を達成します。
論文 参考訳(メタデータ) (2021-04-10T13:56:03Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。