論文の概要: Audio Flamingo Sound-CoT Technical Report: Improving Chain-of-Thought Reasoning in Sound Understanding
- arxiv url: http://arxiv.org/abs/2508.11818v1
- Date: Fri, 15 Aug 2025 21:46:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.392739
- Title: Audio Flamingo Sound-CoT Technical Report: Improving Chain-of-Thought Reasoning in Sound Understanding
- Title(参考訳): 音響フレミンゴ・サウンド-CoT技術報告:音の理解におけるチェーン・オブ・ソート推論の改善
- Authors: Zhifeng Kong, Arushi Goel, Joao Felipe Santos, Sreyan Ghosh, Rafael Valle, Wei Ping, Bryan Catanzaro,
- Abstract要約: チェーンオブ思考推論は、大きな言語モデルと視覚言語モデルにおいて顕著な改善を示しているが、オーディオ言語モデルの可能性はほとんど未解明のままである。
AF-Reasoning-Evalは、常識推論をターゲットとしたベンチマークであり、密接に関連する選択を識別する能力である。
我々は,既存の音声質問応答と分類データを明示的な推論連鎖に変換する自動パイプラインを提案し,AF-CoT-Trainを1.24Mサンプルで生成する。
- 参考スコア(独自算出の注目度): 38.136866962726856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought reasoning has demonstrated significant improvements in large language models and vision language models, yet its potential for audio language models remains largely unexplored. In this technical report, we take a preliminary step towards closing this gap. For better assessment of sound reasoning, we propose AF-Reasoning-Eval, a benchmark targeting common-sense reasoning and the ability to discriminate among closely related choices. To prepare training corpus for sound reasoning abilities, we propose automatic pipelines that transform existing audio question answering and classification data into explicit reasoning chains, yielding AF-CoT-Train with 1.24M samples. We study the effect of finetuning Audio Flamingo series on AF-CoT-Train and observe considerable improvements on several reasoning benchmarks, validating the effectiveness of chain-of-thought finetuning on advanced sound understanding.
- Abstract(参考訳): チェーンオブ思考推論は、大きな言語モデルと視覚言語モデルにおいて顕著な改善を示しているが、オーディオ言語モデルの可能性は、まだ明らかにされていない。
この技術的レポートでは、このギャップを埋めるための予備的な一歩を踏み出します。
AF-Reasoning-Evalは,音の推論をよりよく評価するために,常識的推論をターゲットとしたベンチマークであり,関連する選択を識別する能力である。
音響推論能力のトレーニングコーパスを作成するために,既存の音声質問応答と分類データを明示的な推論チェーンに変換する自動パイプラインを提案し,AF-CoT-Trainに124万サンプルを生成する。
本研究では,AF-CoT-Trainに対するオーディオ・フラミンゴ・シリーズの微調整の効果について検討し,いくつかの推論ベンチマークでかなりの改善が見られ,より高度な音響理解におけるチェーン・オブ・ファインタニングの有効性が検証された。
関連論文リスト
- AURA: A Fine-Grained Benchmark and Decomposed Metric for Audio-Visual Reasoning [3.949628618389608]
AURAは、Audio-Visual Large Language Models (AV-LLMs) とOmni-Modal Language Models (OLMs) のクロスモーダル推論能力を評価するためのベンチマークである。
AURAには、因果性、音色とピッチ、テンポとAV同期、未解決性、暗黙の気遣い、スキルプロファイリングといった6つの困難な認知領域に関する質問が含まれている。
本稿では,理性評価のための頑健なツールの欠如に対処する新しい計量AuraScoreを提案する。
論文 参考訳(メタデータ) (2025-08-10T20:06:42Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - JSQA: Speech Quality Assessment with Perceptually-Inspired Contrastive Pretraining Based on JND Audio Pairs [0.0]
音声品質評価(SQA)は、高次元入力空間から知覚音声品質の平均評価スコア(MOS)を表すスカラーへのマッピングを学ぶためにしばしば用いられる。
本稿では,JSQAを提案する。JSQAは,音声エンコーダを知覚誘導型コントラスト学習を用いて,ただの目立った差分(JND)ペアで事前訓練し,MOS予測のための微調整を行う。
実験結果から, 知覚にインスパイアされたコントラスト事前学習は, 事前学習をせずに, ゼロからトレーニングした同一ネットワークと比較した場合, 種々の指標により評価されたモデル性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-07-15T18:16:46Z) - Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction [87.49303116989708]
AV-TSEの補助的知識源として,事前学習言語モデル (PSLM) と事前学習言語モデル (PLM) の可能性を検討する。
本研究では, AV-TSE モデルに対するPSLM や PLM からの言語制約を追加の監視信号として活用することを提案する。
推論中に余分な計算コストがなければ、提案手法は音声品質と知能性を一貫して改善する。
論文 参考訳(メタデータ) (2025-06-11T14:36:26Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [95.45204813682885]
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。
我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。
以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文 参考訳(メタデータ) (2025-03-04T06:18:34Z) - Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model [26.20569269005708]
LALM(Large Audio-Language Models)は、音声知覚や理解に関わるタスクにおいて顕著な性能を示す。
しかし、それらの推論能力は、複雑な現実世界の問題を解決するのに重要なものであり、まだ未解明のままである。
聴覚モダリティを越えた推論能力を高めるため, LALMへのCoT推論の統合を初めて実施する。
論文 参考訳(メタデータ) (2025-01-13T11:54:40Z) - A Training and Inference Strategy Using Noisy and Enhanced Speech as
Target for Speech Enhancement without Clean Speech [24.036987059698415]
本稿では,拡張音声をターゲットとして用いるトレーニングと推論戦略を提案する。
NyTTの有効性の鍵は、ドメイン内ノイズと外ノイズの均一性にあるため、様々な学生モデルをリミックスして訓練する。
実験の結果,提案手法はいくつかのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-27T12:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。