論文の概要: Omni-CLST: Error-aware Curriculum Learning with guided Selective chain-of-Thought for audio questuin answering
- arxiv url: http://arxiv.org/abs/2509.12275v1
- Date: Sun, 14 Sep 2025 06:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.671755
- Title: Omni-CLST: Error-aware Curriculum Learning with guided Selective chain-of-Thought for audio questuin answering
- Title(参考訳): Omni-CLST:音声質問応答のためのガイド付き選択連鎖を用いた誤り認識カリキュラム学習
- Authors: Jinghua Zhao, Hang Su, Lichun Fan, Zhenbo Luo, Jian Luan, Hui Wang, Haoqin Sun, Yong Qin,
- Abstract要約: Omni-Tは,音声質問応答のための選択連鎖を導出する誤り認識学習フレームワークである。
このフレームワークは、既存の高品質なデータセットを、2つの重要な戦略によって効率的に活用している。
- 参考スコア(独自算出の注目度): 26.528061510525266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Omni-CLST, an error-aware Curriculum Learning framework with guided Selective Chain-of-Thought for audio question answering. The framework efficiently leverages existing high-quality dataset through two key strategies: an error-aware curriculum that organizes samples by difficulty, and a guided thought dropout mechanism that focuses reasoning on challenging cases. Integrated with GRPO training, these strategies enable the model to learn more effectively from informative samples. Experiments on MMAU-mini and MMAR demonstrate that Omni-CLST achieves competitive accuracy (73.80% on MMAU-mini) and establishes a new state of the art (64.30% on MMAR), highlighting its robustness and generalization capability in multimodal audio-language understanding.
- Abstract(参考訳): Omni-CLSTは,音声質問応答のための選択連鎖をガイドした誤り認識学習フレームワークである。
このフレームワークは、既存の高品質なデータセットを、2つの重要な戦略によって効率的に活用している。
これらの戦略はGRPOトレーニングと統合され、情報的サンプルからモデルをより効果的に学習することができる。
MMAU-miniとMMARの実験は、Omni-CLSTが競争精度(MMAU-miniの73.80%)を達成し、新しい最先端(MMARの64.30%)を確立することを示した。
関連論文リスト
- Beyond Modality Limitations: A Unified MLLM Approach to Automated Speaking Assessment with Effective Curriculum Learning [5.148672971653068]
MLLM(Multimodal Large Language Models)は、総合的自動評価(ASA)のための前例のない機会を提供する
我々は, 音声のより堅牢なモデリング基盤を確立するために, 音声ファースト・マルチモーダル・トレーニング(SFMT)を提案する。
特に、SFMTは、従来のトレーニング手法よりも絶対精度を4%向上させるという、デリバリ面の評価に優れています。
論文 参考訳(メタデータ) (2025-08-18T02:57:43Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models [79.90523648823522]
多段階連続学習は破滅的な忘れを招きかねない。
本稿では, 3つの緩和戦略, モデルマージ, LoRAスケーリング係数の割引, 経験リプレイについて検討する。
その結果,経験的リプレイが最も効果的であることが示され,他の手法と組み合わせることでさらに効果が得られた。
論文 参考訳(メタデータ) (2025-05-23T05:50:14Z) - Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models [71.78800549517298]
大規模言語モデル(LLM)を動的世界に展開するには,継続的な学習(CL)能力が不可欠である。
既存の方法は、パラメータ効率チューニング(PET)ブロックを用いてタスク固有の知識を取得するための学習モジュールと、テスト入力に対して対応するものを選択するための選択モジュールを考案する。
本稿では,共有注意学習と選択モジュールを通じてPET学習と選択を調整するための新しい共有注意フレームワーク(SAPT)を提案する。
論文 参考訳(メタデータ) (2024-01-16T11:45:03Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z) - Coverage-based Example Selection for In-Context Learning [27.215972147196805]
BERTScore-Recall (BSR) がテスト入力の健全な側面をよりよく示すより良い例を選択していることを示す。
6つのタスクにまたがる15のデータセットと7つの LLM に対して、(1) BSR は、ボード全体のコンテキスト内サンプル選択において優れた指標であり、(2) 構成タスクでは、Set-BSR は、平均17ポイントまで独立したランキングを上回ります。
論文 参考訳(メタデータ) (2023-05-24T08:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。