論文の概要: Adaptive Test-Time Scaling for Zero-Shot Respiratory Audio Classification
- arxiv url: http://arxiv.org/abs/2604.12647v1
- Date: Tue, 14 Apr 2026 12:17:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.431965
- Title: Adaptive Test-Time Scaling for Zero-Shot Respiratory Audio Classification
- Title(参考訳): ゼロショット呼吸オーディオ分類のための適応的テスト時間スケーリング
- Authors: Tsai-Ning Wang, Herman Teun den Dekker, Lin-Lin Chen, Neil Zeghidour, Aaqib Saeed,
- Abstract要約: TRIAGEは、よりリッチな推論段階を通じて各オーディオサンプルをルーティングすることで、テスト時間計算をスケールする、階層化されたゼロショットフレームワークである。
信頼ベースのルータは、不明瞭な入力に余分な計算を割り当てながら、簡単に予測できる。
TRIAGEは、タスク固有の訓練を受けていない9つの呼吸分類タスクのうち、平均AUROCは0.744であり、以前のゼロショット法よりも優れていた。
- 参考スコア(独自算出の注目度): 14.726932796075927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated respiratory audio analysis promises scalable, non-invasive disease screening, yet progress is limited by scarce labeled data and costly expert annotation. Zero-shot inference eliminates task-specific supervision, but existing methods apply uniform computation to every input regardless of difficulty. We introduce TRIAGE, a tiered zero-shot framework that adaptively scales test-time compute by routing each audio sample through progressively richer reasoning stages: fast label-cosine scoring in a joint audio-text embedding space (Tier-L), structured matching with clinician-style descriptors (Tier-M), and retrieval-augmented large language model reasoning (Tier-H). A confidence-based router finalizes easy predictions early while allocating additional computation to ambiguous inputs, enabling nearly half of all samples to exit at the cheapest tier. Across nine respiratory classification tasks without task-specific training, TRIAGE achieves a mean AUROC of 0.744, outperforming prior zero-shot methods and matching or exceeding supervised baselines on multiple tasks. Our analysis show that test-time scaling concentrates gains where they matter: uncertain cases see up to 19% relative improvement while confident predictions remain unchanged at minimal cost.
- Abstract(参考訳): 自動呼吸オーディオ分析は、スケーラブルで非侵襲的な疾患スクリーニングを約束するが、少ないラベル付きデータと高価な専門家アノテーションによって進行は制限される。
ゼロショット推論はタスク固有の監督を排除しているが、既存の手法は困難にかかわらず全ての入力に一様計算を適用する。
TRIAGEは,共同音声テキスト埋め込み空間(Tier-L)における高速ラベルコサインスコアリング,クリニックスタイルの記述子(Tier-M)とのマッチング構造,検索強化された大規模言語モデル推論(Tier-H)など,各オーディオサンプルを徐々にリッチな推論段階を通じてルーティングすることで,テスト時間計算を適応的にスケールするフレームワークである。
信頼ベースのルータは、計算を不明瞭な入力に割り当てながら、簡単な予測を早期に完了させ、最も安いレベルでサンプルのほぼ半分を退避させる。
TRIAGEは、タスク固有の訓練を伴わない9つの呼吸分類タスクにおいて、平均AUROCの0.744を達成し、以前のゼロショット法を上回り、複数のタスクにおける教師付きベースラインに適合または超えている。
不確実なケースでは19%の相対的な改善が見出され、確実な予測は最小限のコストで変化しない。
関連論文リスト
- Predictive Batch Scheduling: Accelerating Language Model Training Through Loss-Aware Sample Prioritization [0.33842793760651557]
予測バッチスケジューリング(PBS)は,新しいトレーニング最適化手法である。
PBSはバッチ構築時に高損失サンプルを優先する。
予測器は4つの単純な特徴のみを用いて実際の損失と0.44の相関を達成している。
論文 参考訳(メタデータ) (2026-02-19T04:15:39Z) - Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis [14.922065513695294]
Resp-Agent(Resp-Agent)は、アクティブアドリキュラムエージェント(Thinker-A$2$CA)によって編成された自律型マルチモーダルシステムである。
表現ギャップに対処するため,EHRデータをストラテジックグローバルアテンションを介して音声トークンで織り込むModality-Weaving Diagnoserを導入する。
データギャップに対処するために,テキストのみのLarge Language Model (LLM) をモダリティインジェクションにより適応させるフローマッチングジェネレータを設計する。
論文 参考訳(メタデータ) (2026-02-16T14:48:24Z) - Combating Noisy Labels through Fostering Self- and Neighbor-Consistency [120.4394402099635]
ラベルノイズは様々な現実世界のシナリオで広まり、教師付きディープラーニングの課題を提起する。
我々は、Jo-SNC(textbfSelf- と textbfNeighbor-textbfConsistency に基づくサンプル選択とモデル正規化)というノイズロバスト手法を提案する。
我々は、クラスごとの選択閾値を調整するための自己適応型データ駆動しきい値設定方式を設計する。
論文 参考訳(メタデータ) (2026-01-19T07:55:29Z) - Leveraging Prediction Entropy for Automatic Prompt Weighting in Zero-Shot Audio-Language Classification [19.724558192829093]
本稿では,予測信頼度を最大化するために,コントリビューションの頑健な組み合わせを見つけることを目的としたエントロピー誘導型プロンプト重み付け手法を提案する。
我々の手法は個々のサンプルやオーディオサンプルに応用でき、追加のラベルを必要とせず、無視できる計算オーバーヘッドを発生させる。
論文 参考訳(メタデータ) (2026-01-08T15:11:04Z) - One-step Noisy Label Mitigation [86.57572253460125]
ノイズラベルのトレーニング過程に対する有害な影響の軽減がますます重要になっている。
モデルに依存しないノイズラベル緩和パラダイムである1ステップアンチノイズ(OSA)を提案する。
我々はOSAの優位性を実証的に実証し、トレーニングの堅牢性の向上、タスク転送性の向上、デプロイメントの容易性、計算コストの削減を強調した。
論文 参考訳(メタデータ) (2024-10-02T18:42:56Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Identifying Training Stop Point with Noisy Labeled Data [0.0]
テスト精度(MOTA)に近いトレーニング停止点(TSP)を見つけるためのアルゴリズムを開発しています。
我々は,CIFAR-10,CIFAR-100,実世界の雑音データを用いて,アルゴリズム(AutoTSP)のロバスト性を検証した。
論文 参考訳(メタデータ) (2020-12-24T20:07:30Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。