論文の概要: SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models
- arxiv url: http://arxiv.org/abs/2509.15661v1
- Date: Fri, 19 Sep 2025 06:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.032438
- Title: SightSound-R1: Cross-Modal Reasoning Distillation from Vision to Audio Language Models
- Title(参考訳): SightSound-R1:視覚から音声言語モデルへのクロスモーダル推論
- Authors: Qiaolin Wang, Xilin Jiang, Linyang He, Junkai Wu, Nima Mesgarani,
- Abstract要約: より強力なLVLM教師から弱いLALM学生に高度な推論を伝達するクロスモーダル蒸留フレームワークであるSightSound-R1を提案する。
その結果、SightSound-R1は、ドメイン内AVQAテストセットと見えない聴覚シーンと疑問の両方においてLALM推論性能を改善した。
- 参考スコア(独自算出の注目度): 18.802543558300044
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While large audio-language models (LALMs) have demonstrated state-of-the-art audio understanding, their reasoning capability in complex soundscapes still falls behind large vision-language models (LVLMs). Compared to the visual domain, one bottleneck is the lack of large-scale chain-of-thought audio data to teach LALM stepwise reasoning. To circumvent this data and modality gap, we present SightSound-R1, a cross-modal distillation framework that transfers advanced reasoning from a stronger LVLM teacher to a weaker LALM student on the same audio-visual question answering (AVQA) dataset. SightSound-R1 consists of three core steps: (i) test-time scaling to generate audio-focused chains of thought (CoT) from an LVLM teacher, (ii) audio-grounded validation to filter hallucinations, and (iii) a distillation pipeline with supervised fine-tuning (SFT) followed by Group Relative Policy Optimization (GRPO) for the LALM student. Results show that SightSound-R1 improves LALM reasoning performance both in the in-domain AVQA test set as well as in unseen auditory scenes and questions, outperforming both pretrained and label-only distilled baselines. Thus, we conclude that vision reasoning can be effectively transferred to audio models and scaled with abundant audio-visual data.
- Abstract(参考訳): 大規模な音声言語モデル (LALM) は最先端の音声理解を実証しているが、複雑な音声スケープの推論能力は大きな視覚言語モデル (LVLM) に置き換わっている。
視覚領域と比較すると、1つのボトルネックは、LALMのステップワイズ推論を教えるために、大規模に連鎖した音声データが欠如していることである。
このデータとモダリティギャップを回避するために,より強いLVLM教師からより弱いLALM学生に,同じ音声-視覚的質問応答(AVQA)データセット上で高度な推論を伝達するクロスモーダル蒸留フレームワークであるSightSound-R1を提案する。
SightSound-R1は3つの中核ステップから構成される。
(i)LVLM教師から音声中心の思考連鎖(CoT)を生成するテストタイムスケーリング
(二)幻覚をフィルタリングするための音場検証、及び
三 LALM学生に対して、監督微調整(SFT)とグループ相対政策最適化(GRPO)を併用した蒸留パイプライン。
その結果、SightSound-R1は、ドメイン内AVQAテストセットと見えない聴覚シーンおよび質問の両方においてLALM推論性能を向上し、事前学習とラベルのみの蒸留ベースラインよりも優れていた。
そこで我々は,視覚的推論を音声モデルに効果的に移行し,豊富な音声・視覚データで拡張することができると結論付けた。
関連論文リスト
- PAL: Probing Audio Encoders via LLMs -- A Study of Information Transfer from Audio Encoders to LLMs [16.820927353576774]
大規模言語モデル(LLM)への音声認識機能の統合は、オーディオ-LLMの大幅な進歩を可能にした。
我々は,LLMがテキストクエリを満たすために,音声エンコーダ表現を適切に探索する能力として,効果的な音声-LLMインタラクションを概念化する。
本稿では,建築設計の選択がそれにどのように影響するかを体系的に検討する。
論文 参考訳(メタデータ) (2025-06-12T07:23:07Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing [81.3306413498174]
Movie Dubbingは、スクリプトを、時間的および感情的な両方の面において、所定の映画クリップと整合するスピーチに変換することを目的としている。
既存の手法は、リップシンクと音響品質の重要性を無視しながら、単語エラー率の低減に重点を置いている。
ダビングのための大規模言語モデル(LLM)に基づくフローマッチングアーキテクチャであるFlowDubberを提案する。
論文 参考訳(メタデータ) (2025-05-02T13:30:19Z) - Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs [33.12165044958361]
大規模言語モデル(LLM)の最近の進歩は、音声認識において、AVSR(Audio-Visual Speech Recognition)を含む強力な性能を示している。
そこで我々は,AVSRのための最初のMateryoshkaベースのマルチモーダルLLMであるLlama-MTSKを提案する。
Matryoshka Representation Learningにインスパイアされた私たちのモデルは、単一のアーキテクチャで複数の粒度の表現をエンコードします。
効率的な微調整を行うため,グローバルおよびスケール固有のモジュールを用いたLoRAベースの戦略を3つ導入する。
論文 参考訳(メタデータ) (2025-03-09T00:02:10Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。