論文の概要: Thinking While Listening: Simple Test Time Scaling For Audio Classification
- arxiv url: http://arxiv.org/abs/2509.19676v1
- Date: Wed, 24 Sep 2025 01:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.653558
- Title: Thinking While Listening: Simple Test Time Scaling For Audio Classification
- Title(参考訳): 聴きながら考える:オーディオ分類のための簡単なテスト時間スケーリング
- Authors: Prateek Verma, Mert Pilanci,
- Abstract要約: 本稿では,ニューラルネットワークが日常の音を聴きながら"考える"ことを可能にするフレームワークを提案する。
大規模言語モデルの推論能力の最近の進歩により、我々は2つの中心的な疑問に対処する: (i) 既存の音声分類パイプラインに思考を組み込んで、カテゴリ空間での推論を可能にし、パフォーマンスを向上させる方法、(ii) 思考とテストタイムのスケーリングの両方をサポートするために、新しいアーキテクチャをゼロから設計することができるか。
- 参考スコア(独自算出の注目度): 61.3564313676731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a framework that enables neural models to "think while listening" to everyday sounds, thereby enhancing audio classification performance. Motivated by recent advances in the reasoning capabilities of large language models, we address two central questions: (i) how can thinking be incorporated into existing audio classification pipelines to enable reasoning in the category space and improve performance, and (ii) can a new architecture be designed from the ground up to support both thinking and test-time scaling? We demonstrate that in both settings, our models exhibit improved classification accuracy. Leveraging test-time scaling, we observe consistent gains as the number of sampled traces increases. Furthermore, we evaluate two open-source reasoning models, GPT-OSS-20B and Qwen3-14B, showing that while such models are capable of zero-shot reasoning, a lightweight approach--retraining only the embedding matrix of a frozen, smaller model like GPT-2--can surpass the performance of billion-parameter text-based reasoning models.
- Abstract(参考訳): 本稿では,ニューラルネットワークが日常の音を聴きながら"考える"ことを可能にするフレームワークを提案する。
大規模言語モデルの推論能力の最近の進歩に触発されて、我々は2つの中心的な疑問に対処する。
一 既存の音声分類パイプラインに思考を組み込むことにより、カテゴリー空間における推論を可能とし、性能を向上させることができること。
(ii) 思考とテストタイムのスケーリングの両方をサポートするために、ゼロから新しいアーキテクチャを設計できるだろうか?
どちらの設定でも,モデルの分類精度が向上することが実証された。
テスト時間スケーリングを活用することで、サンプルトレースの数が増加するにつれて、一貫した利得が観察される。
さらに、GPT-OSS-20B と Qwen3-14B の2つのオープンソース推論モデルを評価し、これらのモデルがゼロショット推論が可能な一方で、軽量なアプローチにより、GPT-2 のような凍結された小さなモデルの埋め込み行列のみを制限し、数十億パラメータのテキストベースの推論モデルの性能を上回り得ることを示した。
関連論文リスト
- TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation [23.21984538472322]
視覚的自己回帰(VAR)モデルのための、最初の一般的なテスト時間スケーリングフレームワークを提示する。
クラスタリングに基づく多様性探索と再サンプリングに基づく潜在的選択を提案する。
強力なVARモデルであるInfinityの実験は、注目すべき8.7%のGenEvalスコアの改善を示している。
論文 参考訳(メタデータ) (2025-07-24T16:04:55Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Neural PLDA Modeling for End-to-End Speaker Verification [40.842070706362534]
ニューラルPLDA(NPLDA)と呼ばれる話者検証におけるバックエンドモデリングのためのニューラルネットワークアプローチを提案する。
本稿では,NPLDAネットワークと組込みニューラルネットワーク(xベクトルネットワーク)をエンドツーエンドで共同最適化するために,本研究を拡張した。
提案したE2Eモデルは,xベクトルPLDAベースライン話者検証システムよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-08-11T05:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。