論文の概要: Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
- arxiv url: http://arxiv.org/abs/2503.13068v1
- Date: Mon, 17 Mar 2025 11:19:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:20.082125
- Title: Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation
- Title(参考訳): Crab: 明示的な協調による統合されたオーディオ・ビジュアル・シーン理解モデル
- Authors: Henghui Du, Guangyao Li, Chang Zhou, Chunjie Zhang, Alan Zhao, Di Hu,
- Abstract要約: 本研究では,データとモデルの両方の観点から,明示的なタスク間協調を実現する統一学習手法を提案する。
提案手法は,複数のタスクにおける既存の統合音声-視覚モデルを上回るだけでなく,特定のタスクにおいて,最も特殊なモデルよりも優れる。
- 参考スコア(独自算出の注目度): 36.37023296057912
- License:
- Abstract: In recent years, numerous tasks have been proposed to encourage model to develop specified capability in understanding audio-visual scene, primarily categorized into temporal localization, spatial localization, spatio-temporal reasoning, and pixel-level understanding. Instead, human possesses a unified understanding ability for diversified tasks. Therefore, designing an audio-visual model with general capability to unify these tasks is of great value. However, simply joint training for all tasks can lead to interference due to the heterogeneity of audiovisual data and complex relationship among tasks. We argue that this problem can be solved through explicit cooperation among tasks. To achieve this goal, we propose a unified learning method which achieves explicit inter-task cooperation from both the perspectives of data and model thoroughly. Specifically, considering the labels of existing datasets are simple words, we carefully refine these datasets and construct an Audio-Visual Unified Instruction-tuning dataset with Explicit reasoning process (AV-UIE), which clarifies the cooperative relationship among tasks. Subsequently, to facilitate concrete cooperation in learning stage, an interaction-aware LoRA structure with multiple LoRA heads is designed to learn different aspects of audiovisual data interaction. By unifying the explicit cooperation across the data and model aspect, our method not only surpasses existing unified audio-visual model on multiple tasks, but also outperforms most specialized models for certain tasks. Furthermore, we also visualize the process of explicit cooperation and surprisingly find that each LoRA head has certain audio-visual understanding ability. Code and dataset: https://github.com/GeWu-Lab/Crab
- Abstract(参考訳): 近年,時間的局所化,空間的局所化,時空間的推論,ピクセルレベルの理解といった,音声視覚シーンの理解における特定の能力をモデルに展開させるタスクが多数提案されている。
その代わり、人間は多様なタスクに対する統一的な理解能力を持っている。
したがって、これらのタスクを統一する一般的な機能を備えたオーディオ視覚モデルの設計は、非常に価値がある。
しかし、全てのタスクのジョイントトレーニングは、オーディオヴィジュアルデータの異質性やタスク間の複雑な関係による干渉につながる可能性がある。
我々は,タスク間の明示的な協調によってこの問題を解決できることを論じる。
この目的を達成するために,データとモデルの両方の観点から明示的なタスク間協調を実現する統一学習手法を提案する。
具体的には、既存のデータセットのラベルが単純な単語であることを考えると、これらのデータセットを慎重に洗練し、明示的推論プロセス(AV-UIE)を用いたオーディオ・ビジュアル統一命令チューニングデータセットを構築し、タスク間の協調関係を明らかにする。
その後、学習段階における具体的な協調を容易にするために、複数のLoRAヘッドを持つ対話型LoRA構造を設計し、オーディオ視覚データインタラクションの異なる側面を学習する。
データとモデルにまたがる明示的な協調を統一することにより、本手法は複数のタスクにおいて既存の統合された音声・視覚モデルを上回るだけでなく、特定のタスクにおいて最も特殊なモデルよりも優れる。
さらに、明示的な協調の過程を可視化し、各LoRAヘッドが特定の音声・視覚的理解能力を持っていることを驚くべきことに発見する。
コードとデータセット:https://github.com/GeWu-Lab/Crab
関連論文リスト
- A Survey of Recent Advances and Challenges in Deep Audio-Visual Correlation Learning [6.595840767689357]
音声と視覚の相関学習は、音声と視覚データの間の自然現象を捉え、理解することを目的としている。
ディープラーニングの急速な成長は、オーディオ視覚データを処理する提案の開発を促した。
本稿では,近年の音声・視覚相関学習の進歩を要約し,今後の研究方向性について考察する。
論文 参考訳(メタデータ) (2024-11-24T03:26:34Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。
単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-05-11T17:57:49Z) - Identifying Auxiliary or Adversarial Tasks Using Necessary Condition
Analysis for Adversarial Multi-task Video Understanding [34.75145779372538]
本稿では,モデルが適切に動作すべき補助タスクと,モデルがうまく動作すべきでない逆タスクの両方を組み込むことで,マルチタスク学習の一般化概念を提案する。
提案する新たなフレームワークであるAMT(Adversarial Multi-Task Neural Networks)は,NAAがシーン認識であると判断した敵タスクをペナルティ化する。
提案手法は, 精度を3%向上させるとともに, 相関バイアスのシーン特徴ではなく, アクション特徴への参画を促す。
論文 参考訳(メタデータ) (2022-08-22T06:26:11Z) - Look\&Listen: Multi-Modal Correlation Learning for Active Speaker
Detection and Speech Enhancement [18.488808141923492]
ADENetは,音声・視覚モデルの共同学習による話者検出と音声強調を実現するために提案されている。
聴覚と視覚ストリームの相互関係は,マルチタスク学習の課題に対して有望な解決法である。
論文 参考訳(メタデータ) (2022-03-04T09:53:19Z) - Audio-Visual Fusion Layers for Event Type Aware Video Recognition [86.22811405685681]
マルチタスク学習方式において,個別のイベント固有のレイヤによるマルチセンサ統合問題に対処する新しいモデルを提案する。
我々のネットワークは単一のラベルで表現されているが、与えられたビデオを表現するために、さらに真のマルチラベルを出力できる。
論文 参考訳(メタデータ) (2022-02-12T02:56:22Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Taskology: Utilizing Task Relations at Scale [28.09712466727001]
共同で訓練することで,タスクの集合間の固有の関係を活用できることが示される。
タスク間の関係を明確に活用することで、パフォーマンスが向上し、ラベル付きデータの必要性が劇的に低減される。
本稿では, 深度と正規予測, セマンティックセグメンテーション, 3次元運動とエゴモーション推定, および点雲における物体追跡と3次元検出という, タスクのサブセットについて示す。
論文 参考訳(メタデータ) (2020-05-14T22:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。