Fugu-MT 論文翻訳(概要): Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning

論文の概要: Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning

arxiv url: http://arxiv.org/abs/2411.12787v1
Date: Tue, 19 Nov 2024 11:03:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.244833
Title: Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning
Title（参考訳）: 視覚インストラクションファインタニングのためのビジュアルキューの強化と2次元低ランク適応
Authors: Pengkun Jiao, Bin Zhu, Jingjing Chen, Chong-Wah Ngo, Yu-Gang Jiang,
Abstract要約: VCE(Vision Cue Enhancement)とDual-LoRA(Dual-LoRA)の2つの新しいアプローチによる効率的な微調整フレームワークを提案する。 VCEは、マルチレベルビジュアルキューを統合することで、視覚プロジェクタを強化し、きめ細かい視覚的特徴をキャプチャするモデルの能力を向上させる。 Dual-LoRAは、命令チューニングのための2つの低ランク構造を導入し、スキルとタスク空間に学習を分離し、様々なタスクにまたがって正確な制御と効率的な適応を可能にする。
参考スコア（独自算出の注目度）: 102.18178065928426
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning multimodal large language models (MLLMs) presents significant challenges, including a reliance on high-level visual features that limits fine-grained detail comprehension, and data conflicts that arise from task complexity. To address these issues, we propose an efficient fine-tuning framework with two novel approaches: Vision Cue Enhancement (VCE) and Dual Low-Rank Adaptation (Dual-LoRA). VCE enhances the vision projector by integrating multi-level visual cues, improving the model's ability to capture fine-grained visual features. Dual-LoRA introduces a dual low-rank structure for instruction tuning, decoupling learning into skill and task spaces to enable precise control and efficient adaptation across diverse tasks. Our method simplifies implementation, enhances visual comprehension, and improves adaptability. Experiments on both downstream tasks and general benchmarks demonstrate the effectiveness of our proposed approach.
Abstract（参考訳）: 微調整型マルチモーダル大言語モデル(MLLM)は、細かな詳細理解を制限する高レベルの視覚的特徴への依存や、タスクの複雑さから生じるデータ競合など、重要な課題を提示する。これらの問題に対処するために、視覚キュー強化(VCE)とデュアルローランド適応(Dual-LoRA)の2つの新しいアプローチによる効率的な微調整フレームワークを提案する。 VCEは、マルチレベルのビジュアルキューを統合することで、視覚プロジェクタを強化し、きめ細かい視覚的特徴をキャプチャするモデルの能力を向上させる。 Dual-LoRAは、命令チューニングのための2つの低ランク構造を導入し、スキルとタスク空間に学習を分離し、様々なタスクにまたがって正確な制御と効率的な適応を可能にする。本手法は,実装を単純化し,視覚的理解を高め,適応性を向上させる。ダウンストリームタスクと一般ベンチマークの両方の実験により,提案手法の有効性が示された。

関連論文リスト

From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion [91.35078719566472]
VLM(Vision-Language Models)は、粗い非対称接続を使用することで、深刻な視覚的特徴のボトルネックを生み出す。 CLI(Cross-Layer Injection)は,2つのモダリティの間に動的に多対多の橋を架ける,斬新で軽量なフレームワークである。
論文参考訳（メタデータ） (2026-01-15T18:59:10Z)
MeTA-LoRA: Data-Efficient Multi-Task Fine-Tuning for Large Language Models [19.55984142351919]
マルチタスク適応におけるデータ効率を大幅に向上する2段階最適化フレームワークであるMeTA-LoRAを紹介する。マルチタスク学習と多言語学習の両方のシナリオにおいて、我々の手法は従来の全データLoRAファインチューニング手法の性能と一致するか、上回っている。
論文参考訳（メタデータ） (2025-10-13T16:37:40Z)
OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment [79.98946571424607]
我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-09-23T13:57:55Z)
Align, Don't Divide: Revisiting the LoRA Architecture in Multi-Task Learning [20.31474646915225]
頭間類似度の高い単純化されたマルチヘッドアーキテクチャは、複雑なマルチアダプタおよびマルチヘッドシステムより優れていることを示す。本稿では,共有アダプタ空間内でのタスク表現の整合性を明示的に損なうAlign-LoRAを提案する。
論文参考訳（メタデータ） (2025-08-07T07:02:55Z)
ThanoRA: Task Heterogeneity-Aware Multi-Task Low-Rank Adaptation [96.86211867758652]
Low-Rank Adaptation (LoRA) は、基礎モデルの下流の微調整に広く採用されている。タスク不均一性を考慮したマルチタスク低ランク適応フレームワークであるTanoRAを提案する。
論文参考訳（メタデータ） (2025-05-24T11:01:45Z)
Lumina-OmniLV: A Unified Multimodal Framework for General Low-Level Vision [40.27654736294303]
Lunima-OmniLVは低レベルビジョンのための汎用マルチモーダルマルチタスクフレームワークである。画像復元、画像の強化、弱いセマンティックな密度予測、スタイル化の4つのカテゴリにまたがる100以上のサブタスクに対処する。
論文参考訳（メタデータ） (2025-04-07T10:22:00Z)
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 MLLM(Multimodal Large Language Models)の試験場として機能する。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-12T17:41:23Z)
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。 VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文参考訳（メタデータ） (2024-12-26T18:56:05Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Separable Mixture of Low-Rank Adaptation for Continual Visual Instruction Tuning [16.873306091966693]
視覚的インストラクションチューニングにより、大規模な言語モデル(MLLM)は、言語ベースのインストラクションとしてフレーミングすることで、幅広い視覚タスクを処理できる。 CVITでは,MLLMが学習した視覚的理解を忘れると同時に,学習能力の低下を経験する。本稿では2つの異なるモジュール間の分離可能なルーティングを利用するSMOLoRAフレームワークについて紹介する。このデュアルルーチン設計により、両方のドメインに特別な適応が可能となり、性能を改善しながら、忘れることを防ぐことができる。
論文参考訳（メタデータ） (2024-11-21T09:00:15Z)
AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。 AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文参考訳（メタデータ） (2024-11-15T22:02:28Z)
VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。 VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文参考訳（メタデータ） (2024-10-21T18:10:26Z)
MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning [74.43869839954168]
MTL能力を大幅に向上させながら、低ランク適応の利点を保ちつつ、MTL-LoRAを提案する。 MTL-LoRAは、タスク固有の情報を識別し、共有知識をキャプチャするタスク適応パラメータを追加することで、LoRAを強化する。このアプローチにより、事前訓練されたモデルは、限られた数のトレーニング可能なパラメータで、異なるターゲットドメインに共同で適応することができる。
論文参考訳（メタデータ） (2024-10-12T08:32:26Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
CROME: Cross-Modal Adapters for Efficient Multimodal LLM [28.337072921099494]
MLLM(Multimodal Large Language Models)は、画像言語機能を示す。既存のアプローチは、しばしば高価な言語モデルの再訓練と限定的な適応性を必要とする。本稿では,効率的な視覚言語命令チューニングフレームワークCROMEを提案する。
論文参考訳（メタデータ） (2024-08-13T03:45:11Z)
Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文参考訳（メタデータ） (2024-08-07T04:20:28Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文参考訳（メタデータ） (2024-04-17T09:39:07Z)
Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。 MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。 Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文参考訳（メタデータ） (2024-04-13T12:14:58Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs Using the CGC-LORA Algorithm [7.521690071464451]
大規模言語モデル (LLM) において, 1 + N mutli-task の微調整パターンを実装する統一フレームワークを提案する。我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
論文参考訳（メタデータ） (2024-01-22T07:58:31Z)
M2-CLIP: A Multimodal, Multi-task Adapting Framework for Video Action Recognition [39.92547393649842]
これらの課題に対処するために,新しいMultimodal,Multi-task CLIP適応フレームワークの名前付きフレームワークを導入する。ゼロショットシナリオにおける強力な一般化を維持しつつ、教師あり学習における例外的な性能を示す。
論文参考訳（メタデータ） (2024-01-22T02:03:31Z)
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文参考訳（メタデータ） (2023-11-09T13:18:27Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
Image Difference Captioning with Pre-training and Contrastive Learning [45.59621065755761]
画像差分キャプション(IDC)タスクは、自然言語と類似した2つの画像の視覚的差異を記述することを目的としている。このタスクの主な課題は、1)より強力な視覚と言語関連を学習する必要のある、きめ細かい視覚的差異、2)手動アノテーションのコストの2つの側面にある。本稿では,これらの課題に対処するために,事前学習ファインタニングパラダイムに基づく新しいモデリングフレームワークを提案する。
論文参考訳（メタデータ） (2022-02-09T06:14:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。