論文の概要: AVRT: Audio-Visual Reasoning Transfer through Single-Modality Teachers
- arxiv url: http://arxiv.org/abs/2604.16617v1
- Date: Fri, 17 Apr 2026 18:13:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.10767
- Title: AVRT: Audio-Visual Reasoning Transfer through Single-Modality Teachers
- Title(参考訳): AVRT:単一モダリティ教師によるオーディオ・ビジュアル・推論の伝達
- Authors: Edson Araujo, Saurabhchand Bhati, M. Jehanzeb Mirza, Brian Kingsbury, Samuel Thomas, Rogerio Feris, James R. Glass, Hilde Kuehne,
- Abstract要約: 単一モダリティ教師モデルから高品質な音声視覚推論トレースを生成するフレームワークを開発する。
クロスモーダルトレーニングも単一モーダルタスクに移行することを示す。
- 参考スコア(独自算出の注目度): 51.016506778535025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in reasoning models have shown remarkable progress in text-based domains, but transferring those capabilities to multimodal settings, e.g., to allow reasoning over audio-visual data, still remains a challenge, in part because of the limited availability of high-quality reasoning data in targeted multimodal combinations. To address this problem, we introduce AVRT, a novel framework that generates high-quality audio-visual reasoning traces from single-modality teacher models. We generate independent vision- and audio-reasoning traces via models specialized to reason over their respective modalities and merge the resulting traces with an LLM merger model. The resulting multimodal traces are used in a supervised fine-tuning (SFT) cold start to adapt the target model to audio-visual reasoning traces first, before training it in a second reinforcement learning stage on larger-scale data. Evaluated on seven audio-visual and audio benchmarks, our 3B and 7B parameter models achieve state-of-the-art results among models of comparable size including OmniBench and DailyOmni for audio-visual and MMAR for audio-only reasoning, showing that cross-modal training also transfers to single-modality tasks and establishing a new training pipeline for multimodal reasoning models.
- Abstract(参考訳): 近年の推論モデルの進歩は、テキストベースの領域において顕著な進歩を見せているが、ターゲットとするマルチモーダル組み合わせにおいて高品質な推論データが不足していることもあって、音声・視覚的データの推論を可能にするため、これらの機能をマルチモーダル設定に転送することは依然として困難である。
この問題に対処するために,単一モダリティ教師モデルから高品質な音声視覚推論トレースを生成する新しいフレームワークであるAVRTを紹介する。
我々は、それぞれのモダリティを推論し、その結果のトレースをLLMマージモデルとマージするために、独立して視覚的および音声的推論トレースを生成する。
得られたマルチモーダルトレースは、教師付き微調整(SFT)コールドスタートで使用され、ターゲットモデルをまず音声-視覚的推論トレースに適応させ、その後、より大規模なデータに基づいて第2の強化学習段階にトレーニングする。
OmniBenchやDailyOmniなど,オーディオのみの推論のためのMMARや,クロスモーダルトレーニングも単一モーダルタスクに移行し,マルチモーダル推論モデルのための新たなトレーニングパイプラインを構築した。
関連論文リスト
- UALM: Unified Audio Language Model for Understanding, Generation and Reasoning [124.19449187588832]
統一音声言語モデル (Unified Audio Language Model, UALM) は、音声理解、テキスト音声生成、マルチモーダル推論を単一モデルで統一することを目的としている。
最初にUALM-Genを提示する。これは音声トークンを直接予測し,最先端の拡散モデルに匹敵する言語モデルである。
UALM-Reasonは、テキストと音声の両方を中間的思考ステップで活用し、複雑な生成作業を容易にするマルチモーダル推論モデルである。
論文 参考訳(メタデータ) (2025-10-13T22:55:01Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [35.86252379746625]
本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。
現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。
Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文 参考訳(メタデータ) (2025-05-27T08:22:56Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - A Single Self-Supervised Model for Many Speech Modalities Enables
Zero-Shot Modality Transfer [31.028408352051684]
マルチモーダル音声と非モーダル音声の両方を活用できる自己教師型事前学習フレームワークであるu-HuBERTを提案する。
LRS3では1.2%/1.4%/27.2%の音声認識単語誤り率を示す。
論文 参考訳(メタデータ) (2022-07-14T16:21:33Z) - Leveraging Uni-Modal Self-Supervised Learning for Multimodal
Audio-Visual Speech Recognition [23.239078852797817]
マルチモーダル音声視覚音声認識(AVSR)の推進に一様自己教師型学習を活用する。
特に、私たちはまず大規模なユニモーダルデータセットでオーディオとビジュアルエンコーダをトレーニングし、その後、両方のエンコーダのコンポーネントをより大きなマルチモーダルフレームワークに統合します。
本モデルは,単語レベルと文レベルの両方のAVSRタスクに対して実験的に検証される。
論文 参考訳(メタデータ) (2022-02-24T15:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。