論文の概要: Omni-CLST: Error-aware Curriculum Learning with guided Selective chain-of-Thought for audio question answering
- arxiv url: http://arxiv.org/abs/2509.12275v3
- Date: Thu, 18 Sep 2025 07:19:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 13:12:58.91818
- Title: Omni-CLST: Error-aware Curriculum Learning with guided Selective chain-of-Thought for audio question answering
- Title(参考訳): Omni-CLST:音声質問応答のためのガイド付き選択連鎖を用いた誤り認識カリキュラム学習
- Authors: Jinghua Zhao, Hang Su, Lichun Fan, Zhenbo Luo, Hui Wang, Haoqin Sun, Yong Qin,
- Abstract要約: 提案するOmni-Tは,Selective Chain-of-Thoughtを用いた誤り認識学習フレームワークである。
我々は,Omni-TがMMAUminiで73.80%,MMARで64.30%を達成していることを示す。
- 参考スコア(独自算出の注目度): 20.893202481783444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid progress of large audio-language models (LALMs), audio question answering (AQA) has emerged as a challenging task requiring both fine-grained audio understanding and complex reasoning. While current methods mainly rely on constructing new datasets via captioning or reasoning traces, existing high-quality AQA data remains underutilized. To address this, we propose Omni-CLST, an error-aware Curriculum Learning framework with guided Selective Chain-of-Thought. The framework efficiently leverages existing high-quality dataset through two key strategies: an error-aware curriculum that organizes samples by difficulty, and a guided thought dropout mechanism that focuses reasoning on challenging cases. Experiments show that Omni-CLST achieves 73.80% on MMAU-mini and a new state of the art of 64.30% on MMAR, demonstrating robust generalization in multimodal audio-language understanding.
- Abstract(参考訳): 大規模音声言語モデル(LALM)の急速な進歩に伴い、音声質問応答(AQA)は、きめ細かい音声理解と複雑な推論の両方を必要とする課題として浮上してきた。
現在の手法は主にキャプションや推論トレースによる新しいデータセットの構築に依存しているが、既存の高品質のAQAデータは未利用のままである。
そこで本稿では,Selective Chain-of-Thoughtを用いた誤り認識学習フレームワークであるOmni-CLSTを提案する。
このフレームワークは、既存の高品質なデータセットを、2つの重要な戦略によって効率的に活用している。
実験により、Omni-CLSTはMMAU-miniで73.80%、MMARで64.30%の新たな最先端を実現し、マルチモーダル音声言語理解における堅牢な一般化を実証した。
関連論文リスト
- Beyond Modality Limitations: A Unified MLLM Approach to Automated Speaking Assessment with Effective Curriculum Learning [5.148672971653068]
MLLM(Multimodal Large Language Models)は、総合的自動評価(ASA)のための前例のない機会を提供する
我々は, 音声のより堅牢なモデリング基盤を確立するために, 音声ファースト・マルチモーダル・トレーニング(SFMT)を提案する。
特に、SFMTは、従来のトレーニング手法よりも絶対精度を4%向上させるという、デリバリ面の評価に優れています。
論文 参考訳(メタデータ) (2025-08-18T02:57:43Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models [79.90523648823522]
多段階連続学習は破滅的な忘れを招きかねない。
本稿では, 3つの緩和戦略, モデルマージ, LoRAスケーリング係数の割引, 経験リプレイについて検討する。
その結果,経験的リプレイが最も効果的であることが示され,他の手法と組み合わせることでさらに効果が得られた。
論文 参考訳(メタデータ) (2025-05-23T05:50:14Z) - Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models [71.78800549517298]
大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。
既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。
本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
論文 参考訳(メタデータ) (2024-01-16T11:45:03Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z) - Coverage-based Example Selection for In-Context Learning [27.215972147196805]
BERTScore-Recall (BSR) がテスト入力の健全な側面をよりよく示すより良い例を選択していることを示す。
6つのタスクにまたがる15のデータセットと7つの LLM に対して、(1) BSR は、ボード全体のコンテキスト内サンプル選択において優れた指標であり、(2) 構成タスクでは、Set-BSR は、平均17ポイントまで独立したランキングを上回ります。
論文 参考訳(メタデータ) (2023-05-24T08:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。