論文の概要: AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2508.02149v1
- Date: Mon, 04 Aug 2025 07:47:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.232645
- Title: AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation
- Title(参考訳): AURORA:参照音声・ビジュアルセグメンテーションのための構造化推論と強化学習による強化された理解
- Authors: Ziyang Luo, Nian Liu, Fahad Shahbaz Khan, Junwei Han,
- Abstract要約: AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
- 参考スコア(独自算出の注目度): 113.75682363364004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reference Audio-Visual Segmentation (Ref-AVS) tasks challenge models to precisely locate sounding objects by integrating visual, auditory, and textual cues. Existing methods often lack genuine semantic understanding, tending to memorize fixed reasoning patterns. Furthermore, jointly training for reasoning and segmentation can compromise pixel-level precision. To address these issues, we introduce AURORA, a novel framework designed to enhance genuine reasoning and language comprehension in reference audio-visual segmentation. We employ a structured Chain-of-Thought (CoT) prompting mechanism to guide the model through a step-by-step reasoning process and introduce a novel segmentation feature distillation loss to effectively integrate these reasoning abilities without sacrificing segmentation performance. To further cultivate the model's genuine reasoning capabilities, we devise a further two-stage training strategy: first, a ``corrective reflective-style training" stage utilizes self-correction to enhance the quality of reasoning paths, followed by reinforcement learning via Group Reward Policy Optimization (GRPO) to bolster robustness in challenging scenarios. Experiments demonstrate that AURORA achieves state-of-the-art performance on Ref-AVS benchmarks and generalizes effectively to unreferenced segmentation.
- Abstract(参考訳): レファレンス・オーディオ・ビジュアル・セグメンテーション(Ref-AVS)タスクは、視覚的、聴覚的、テキスト的手がかりを統合することで、音の物体を正確に見つけるモデルに挑戦する。
既存の手法は、しばしば真の意味的理解を欠き、固定された推論パターンを記憶する傾向がある。
さらに、推論とセグメンテーションのための共同トレーニングは、ピクセルレベルの精度を損なう可能性がある。
これらの問題に対処するため,本研究では,参照音声・視覚的セグメンテーションにおける真の推論と言語理解の強化を目的とした,新しいフレームワークであるAURORAを紹介する。
我々は,段階的推論プロセスを通じてモデルを誘導する構造的チェーン・オブ・ソート(CoT)促進機構を採用し,セグメンテーション性能を犠牲にすることなく,これらの推論能力を効果的に統合する新たなセグメンテーション特徴蒸留損失を導入する。
まず,「修正反射型学習」段階では,自己補正を用いて推論パスの品質を向上させるとともに,グループリワードポリシー最適化(GRPO)による強化学習を行い,難題における堅牢性を高める。
実験により、AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化することを示した。
関連論文リスト
- Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。
特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文 参考訳(メタデータ) (2025-07-08T11:45:51Z) - Weakly-supervised Audio Temporal Forgery Localization via Progressive Audio-language Co-learning Network [17.91342898415867]
既存のATFL手法は、細かいアノテーションを使って効率的なネットワークを訓練することに依存している。
そこで本稿では,ローカライズ性能を高めるために,協調学習と自己超越的手法を取り入れたプログレッシブ・オーディオ・コラーニング・ネットワーク(LOCO)を提案する。
提案したLOCOは3つの公開ベンチマークでSOTA性能を達成する。
論文 参考訳(メタデータ) (2025-05-03T17:57:57Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Hear the Scene: Audio-Enhanced Text Spotting [5.147406854508998]
テキストスポッティングモデルのトレーニングに転写アノテーションのみを活用する革新的なアプローチを導入する。
提案手法では,暗黙的な位置特徴の学習を容易にする問合せに基づくパラダイムを用いている。
より正確なテキストインスタンスのローカライズを行うために、粗大から細粒のクロスアテンションローカライズ機構を導入する。
論文 参考訳(メタデータ) (2024-12-27T07:44:05Z) - PRoDeliberation: Parallel Robust Deliberation for End-to-End Spoken Language Understanding [44.77985942208969]
PRoDeliberationは、コネクショニストの時間分類に基づくデコード戦略を活用する新しい手法であり、堅牢な非自己回帰的デリベレーションモデルをトレーニングするための認知的目標である。
PRoDeliberationは,自動音声認識(ASR)の誤り書き起こしを補正する能力を維持しつつ,並列デコーディングの遅延低減(自己回帰モデルよりも2~10倍改善)を実現していることを示す。
論文 参考訳(メタデータ) (2024-06-12T02:46:17Z) - Prompt-based Logical Semantics Enhancement for Implicit Discourse
Relation Recognition [4.7938839332508945]
Inlicit Discourse Relation Recognition (IDRR) のための Prompt-based Logical Semantics Enhancement (PLSE) 法を提案する。
提案手法は,事前学習した言語モデルに対する対話関係に関する知識を,素早い接続予測によってシームレスに注入する。
PDTB 2.0 と CoNLL16 データセットによる実験結果から,本手法は現状の最先端モデルに対して優れた一貫した性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-11-01T08:38:08Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。