論文の概要: Crab$^{+}$: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
- arxiv url: http://arxiv.org/abs/2603.04128v1
- Date: Wed, 04 Mar 2026 14:43:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.35367
- Title: Crab$^{+}$: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
- Title(参考訳): Crab$^{+}$: 明示的な協調を伴うスケーラブルで統一されたオーディオ・ビジュアル・シーン理解モデル
- Authors: Dongnuan Cai, Henghui Du, Chang Zhou, Xi Chen, Dan Guo, Hongyuan Zhang, Xuelong Li, Di Hu,
- Abstract要約: 我々は、スケーラブルで統一されたオーディオ視覚シーン理解モデルであるCrab$+$を提示する。
データ側では、AV-UIE v2(Audio-Visual Unified Instruction-tuning データセット)を導入します。
モデル側では、異種タスクの定式化を整合させる統一インターフェースを設計する。
タスクの88%近くにおいて、マルチタスク学習がシングルタスクベースラインを超えた場合、負の転送傾向を逆転させ、正の転送を実現した。
- 参考スコア(独自算出の注目度): 83.75249714794977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing Audio-Visual Large Language Models (AV-LLMs) for unified scene understanding is pivotal in multimodal intelligence. While instruction tuning enables pre-trained models with multi-task abilities, we observe that conventional multi-task unification methods often suffer from severe negative transfer, where nearly 55% of tasks degrade compared to single-task training. We attribute this phenomenon to audio-visual task heterogeneity, characterized by disparate task granularity and divergent capability demands, which lead to negative interference under joint training. To tackle this, we present Crab$^{+}$, a scalable and unified audio-visual scene understanding model that addresses task heterogeneity through explicit cooperation from both data and model perspectives. On the data side, we introduce AV-UIE v2, a comprehensive Audio-Visual Unified Instruction-tuning dataset with Explicit reasoning processes. It contains approximately 222K samples spanning 17 datasets and 7 tasks, enabling the model to capture cross-task relationships at different levels of granularity. On the model side, we design a unified interface to align heterogeneous task formulations, and propose Interaction-aware LoRA (I-LoRA), which explicitly models inter-task relationships via dynamic routing to coordinate distinct audio-visual interaction patterns, mitigating parameter interference. Extensive experiments show Crab$^{+}$ covers broader tasks than existing unified models while outperforming specialized models on various benchmarks. We successfully reverse the negative transfer trend, achieving positive transfer where multi-task learning surpasses single-task baselines in nearly 88% of tasks. These results hold across diverse AV-LLM paradigms and are validated through in-depth visualization, positioning Crab$^{+}$ as a robust step towards holistic audio-visual scene understanding.
- Abstract(参考訳): マルチモーダルインテリジェンスにおいて,一元的シーン理解のためのAV-LLM(Audio-Visual Large Language Models)の開発が重要である。
命令チューニングは,マルチタスク能力を有する事前学習モデルを実現する一方で,従来のマルチタスク統一手法では,タスクの約55%が単一タスク学習に比べて劣化することが多い。
この現象は, 作業の粒度の相違と, 作業能力の相違が特徴であり, 共同訓練において負の干渉が生じる。
この問題を解決するために,データとモデルの両方の観点から明確な協調を通してタスクの不均一性に対処する,スケーラブルで統一されたオーディオ視覚シーン理解モデルであるCrab$^{+}$を提案する。
データ側では、AV-UIE v2を導入します。
17のデータセットと7つのタスクにまたがる約222Kのサンプルが含まれており、モデルが異なるレベルの粒度でタスク間の関係をキャプチャすることができる。
モデル側では、異種タスクの定式化を整合させる統一インターフェースを設計し、動的ルーティングを用いてタスク間の関係を明示的にモデル化し、異なる音声・視覚的相互作用パターンを調整し、パラメータ干渉を緩和する相互対応LoRA(I-LoRA)を提案する。
大規模な実験では、Crab$^{+}$は既存の統一モデルよりも幅広いタスクをカバーし、様々なベンチマークで特別なモデルより優れています。
ほぼ88%のタスクにおいて、マルチタスク学習がシングルタスクベースラインを超える正の転送を実現し、負の転送傾向を逆転させることに成功した。
これらの結果は様々なAV-LLMパラダイムにまたがって成り立ち、詳細な可視化を通じて検証され、Crab$^{+}$を総合的なオーディオ視覚シーン理解への堅牢なステップとして位置づけられる。
関連論文リスト
- Architecture Decoupling Is Not All You Need For Unified Multimodal Model [64.19284951218098]
本稿では,トレーニング中のタスク-特定マルチモーダルインタラクションパターンを明示的に学習する,意図的インタラクションアライメント(AIA)の損失を提案する。
AIAは、横断的な注意パターンを洗練するだけでなく、生成と理解の両方のパフォーマンスも向上させる。
論文 参考訳(メタデータ) (2025-11-27T17:55:25Z) - Single-Input Multi-Output Model Merging: Leveraging Foundation Models for Dense Multi-Task Learning [46.51245338355645]
モデルマージは、シングルタスクのチェックポイントをマルチタスクモデルにマージするための、柔軟で計算的に抽出可能なアプローチである。
本研究は,タスク固有デコーダの存在により,文献で研究されている単一入出力・複数出力モデルのマージ設定と定性的に異なることを示す。
SIMO設定に対する2つの単純かつ効率的な修正を提案し,統合後の特徴表現を再調整する。
論文 参考訳(メタデータ) (2025-04-15T15:10:46Z) - Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation [36.37023296057912]
本研究では,データとモデルの両方の観点から,明示的なタスク間協調を実現する統一学習手法を提案する。
提案手法は,複数のタスクにおける既存の統合音声-視覚モデルを上回るだけでなく,特定のタスクにおいて,最も特殊なモデルよりも優れる。
論文 参考訳(メタデータ) (2025-03-17T11:19:03Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - Modeling Output-Level Task Relatedness in Multi-Task Learning with Feedback Mechanism [7.479892725446205]
マルチタスク学習(MTL)は、異なるレベルで情報を共有することで複数のタスクを同時に学習するパラダイムである。
異なるタスクが相互に影響のある相関出力を生成する可能性があることを考慮し、後続情報をモデルに導入する。
我々は,MTLモデルにフィードバック機構を組み込むことで,あるタスクの出力が他のタスクの隠れ機能として機能する。
論文 参考訳(メタデータ) (2024-04-01T03:27:34Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - Identifying Auxiliary or Adversarial Tasks Using Necessary Condition
Analysis for Adversarial Multi-task Video Understanding [34.75145779372538]
本稿では,モデルが適切に動作すべき補助タスクと,モデルがうまく動作すべきでない逆タスクの両方を組み込むことで,マルチタスク学習の一般化概念を提案する。
提案する新たなフレームワークであるAMT(Adversarial Multi-Task Neural Networks)は,NAAがシーン認識であると判断した敵タスクをペナルティ化する。
提案手法は, 精度を3%向上させるとともに, 相関バイアスのシーン特徴ではなく, アクション特徴への参画を促す。
論文 参考訳(メタデータ) (2022-08-22T06:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。