論文の概要: CoLA: Cross-Modal Low-rank Adaptation for Multimodal Downstream Tasks
- arxiv url: http://arxiv.org/abs/2604.03314v1
- Date: Wed, 01 Apr 2026 01:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.501454
- Title: CoLA: Cross-Modal Low-rank Adaptation for Multimodal Downstream Tasks
- Title(参考訳): CoLA:マルチモーダルダウンストリームタスクに対するクロスモーダル低ランク適応
- Authors: Wish Suharitdamrong, Tony Alex, Muhammad Awais, Sara Ahmed,
- Abstract要約: Cross-Modal Low-Rank Adaptation (CoLA)はLoRAを拡張した新しいPEFTフレームワークである。
我々は、様々な視覚言語(RefCOCO、RefCO+、RefCOCOg)とオーディオ視覚(AVE、AVS)のベンチマークでCoLAを評価した。
特に、CoLAは視覚的接地のための最初のマルチタスクPEFTフレームワークを可能にし、効率的なマルチモーダル適応において重要なギャップを埋める。
- 参考スコア(独自算出の注目度): 7.460929768827037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models have revolutionized AI, but adapting them efficiently for multimodal tasks, particularly in dual-stream architectures composed of unimodal encoders, such as DINO and BERT, remains a significant challenge. Parameter-Efficient Fine-Tuning (PEFT) methods like Low-Rank Adaptation (LoRA) enable lightweight adaptation, yet they operate in isolation within each modality, limiting their ability in capturing cross-modal interactions. In this paper, we take a step in bridging this gap with Cross-Modal Low-Rank Adaptation (CoLA), a novel PEFT framework that extends LoRA by introducing a dedicated inter-modal adaptation pathway alongside the standard intra-modal one. This dual-path design enables CoLA to adapt unimodal foundation models to multimodal tasks effectively, without interference between modality-specific and cross-modal learning. We evaluate CoLA across a range of vision-language (RefCOCO, RefCOCO+, RefCOCOg) and audio-visual (AVE, AVS) benchmarks, where it consistently outperforms LORA, achieving a relative gain of around 3\% and 2\%, respectively, while maintaining parameter efficiency. Notably, CoLA enables the first multi-task PEFT framework for visual grounding, bridging a key gap in efficient multimodal adaptation.
- Abstract(参考訳): ファンデーションモデルはAIに革命をもたらしたが、特にDINOやBERTのような非モーダルエンコーダで構成されるデュアルストリームアーキテクチャにおいて、効率的にマルチモーダルタスクに適用することは依然として大きな課題である。
Low-Rank Adaptation (LoRA) のようなパラメータ効率の良いファインチューニング(PEFT)法は、軽量な適応を可能にするが、各モード内で独立して動作し、クロスモーダル相互作用をキャプチャする能力を制限する。
本稿では,このギャップを,標準モード内適応と並行して専用モード間適応経路を導入することで,LoRAを拡張した新しいPEFTフレームワークであるCross-Modal Low-Rank Adaptation (CoLA)との橋渡しを行う。
このデュアルパス設計により、CoLAはモダリティ特化学習とクロスモーダル学習の干渉なしに、単一モーダル基礎モデルをマルチモーダルタスクに効果的に適用できる。
我々は,様々な視覚言語(RefCOCO,RefCOCO+,RefCOCOg)とオーディオ視覚(AVE,AVS)のベンチマークを用いてCOLAを評価する。
特に、CoLAは視覚的接地のための最初のマルチタスクPEFTフレームワークを可能にし、効率的なマルチモーダル適応において重要なギャップを埋める。
関連論文リスト
- Bridging Modalities via Progressive Re-alignment for Multimodal Test-Time Adaptation [39.02105398462778]
テスト時間適応(TTA)は、未ラベルのテストデータのみを使用したオンラインモデル適応を可能にする。
マルチモーダルのシナリオでは、異なるモダリティをまたいだ分布の度合いの変化は複雑なカップリング効果をもたらす。
本稿では,BriMPR(Progressive Re-alignment)によるブリッジングモダリティ( Bridging Modalities)と呼ばれる新しいTTAフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-28T03:33:42Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - LIDAR: Lightweight Adaptive Cue-Aware Fusion Vision Mamba for Multimodal Segmentation of Structural Cracks [27.57718303520023]
軽量適応Cue-Aware Vision Mambaネットワークを提案する。
マルチモーダルひび割れのシナリオ下で、異なるモーダルから形態的およびテクスチャ的手がかりを効率よく知覚し、統合する。
本手法はF1では0.8204、mIoUでは0.8465、パラメータは5.35Mである。
論文 参考訳(メタデータ) (2025-07-30T08:28:20Z) - MokA: Multimodal Low-Rank Adaptation for MLLMs [11.440424554587674]
マルチモーダル低ランク適応(MokA)は、マルチモーダル対応の効率的な微調整戦略である。
MokAは、モダリティ固有のパラメータによって一様情報を圧縮し、クロスモーダル相互作用を明示的に強化する。
論文 参考訳(メタデータ) (2025-06-05T16:04:08Z) - ThanoRA: Task Heterogeneity-Aware Multi-Task Low-Rank Adaptation [96.86211867758652]
Low-Rank Adaptation (LoRA) は、基礎モデルの下流の微調整に広く採用されている。
タスク不均一性を考慮したマルチタスク低ランク適応フレームワークであるTanoRAを提案する。
論文 参考訳(メタデータ) (2025-05-24T11:01:45Z) - InfoMAE: Pair-Efficient Cross-Modal Alignment for Multimodal Time-Series Sensing Signals [9.648001493025204]
InfoMAEは、SSL設定下でのマルチモーダルペア効率の課題に取り組む、クロスモーダルアライメントフレームワークである。
下流のマルチモーダルタスクを60%以上向上させ、マルチモーダルペアリング効率を大幅に改善した。
また、単一タスクの精度を平均22%向上させる。
論文 参考訳(メタデータ) (2025-04-13T20:03:29Z) - AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。
AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文 参考訳(メタデータ) (2024-11-15T22:02:28Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。