論文の概要: LangVision-LoRA-NAS: Neural Architecture Search for Variable LoRA Rank in Vision Language Models
- arxiv url: http://arxiv.org/abs/2508.12512v1
- Date: Sun, 17 Aug 2025 22:19:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.810422
- Title: LangVision-LoRA-NAS: Neural Architecture Search for Variable LoRA Rank in Vision Language Models
- Title(参考訳): LangVision-LoRA-NAS:視覚言語モデルにおける可変LoRAランクのニューラルネットワーク探索
- Authors: Krishna Teja Chitty-Venkata, Murali Emani, Venkatram Vishwanath,
- Abstract要約: 視覚言語モデル(VLM)は、視覚とテキストのモダリティを統合し、マルチモーダルな理解と生成を可能にする。
LoRA (Low-Rank Adaptation) は、事前訓練されたモデルを新しいタスクに適応するための効率的な微調整手法である。
本稿では、ニューラルネットワーク検索(NAS)とLoRAを統合し、可変ランク適応のためのVLMを最適化する新しいフレームワークであるtextitLangVision-LoRA-NASを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) integrate visual and text modalities to enable multimodal understanding and generation. These models typically combine a Vision Transformer (ViT) as an image encoder and a Large Language Model (LLM) for text generation. LoRA (Low-Rank Adaptation) is an efficient fine-tuning method to adapt pre-trained models to new tasks by introducing low-rank updates to their weights. While LoRA has emerged as a powerful technique for fine-tuning large models by introducing low-rank updates, current implementations assume a fixed rank, potentially limiting flexibility and efficiency across diverse tasks. This paper introduces \textit{LangVision-LoRA-NAS}, a novel framework that integrates Neural Architecture Search (NAS) with LoRA to optimize VLMs for variable-rank adaptation. Our approach leverages NAS to dynamically search for the optimal LoRA rank configuration tailored to specific multimodal tasks, balancing performance and computational efficiency. Through extensive experiments using the LLaMA-3.2-11B model on several datasets, LangVision-LoRA-NAS demonstrates notable improvement in model performance while reducing fine-tuning costs. Our Base and searched fine-tuned models on LLaMA-3.2-11B-Vision-Instruct can be found \href{https://huggingface.co/collections/krishnateja95/llama-32-11b-vision-instruct-langvision-lora-nas-67 86cac480357a6a6fcc59ee}{\textcolor{blue}{here}} and the code for LangVision-LoRA-NAS can be found \href{https://github.com/krishnateja95/LangVision-NAS}{\textcolor{blue}{here}}.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚とテキストのモダリティを統合し、マルチモーダルな理解と生成を可能にする。
これらのモデルは通常、画像エンコーダとしてのビジョントランスフォーマー(ViT)と、テキスト生成のためのLarge Language Model(LLM)を組み合わせる。
LoRA (Low-Rank Adaptation) は、事前訓練されたモデルを新しいタスクに適応するための効率的な微調整手法である。
LoRAは低ランクの更新を導入することで大規模なモデルを微調整するための強力なテクニックとして登場したが、現在の実装では、さまざまなタスクの柔軟性と効率性を制限している可能性がある。
本稿では、ニューラルネットワーク検索(NAS)とLoRAを統合し、可変ランク適応のためのVLMを最適化する新しいフレームワークである「textit{LangVision-LoRA-NAS}」を紹介する。
提案手法はNASを利用して,特定のマルチモーダルタスクに適した最適LoRAランク構成を動的に探索し,性能と計算効率のバランスをとる。
複数のデータセット上でLLaMA-3.2-11Bモデルを用いた広範な実験を通じて、LangVision-LoRA-NASは微調整コストを削減しつつ、モデル性能を顕著に改善した。
我々のベースと検索したLLaMA-3.2-11B-Vision-Instruct 上の微調整モデルは \href{https://huggingface.co/collections/krishnateja95/llama-32-11b-vision-instruct-langvision-lora-nas-67 86cac480357a6a6fcc59ee}{\textcolor{blue}{here}} で、LangVision-LoRA-NAS のコードは \href{https://github.com/krishnateja95/LangVision-NAS}{\textcolor{blue}{here}} で見ることができる。
関連論文リスト
- ORAL: Prompting Your Large-Scale LoRAs via Conditional Recurrent Diffusion [31.373165386548546]
LLM(Low-Rank Adaptation)は、大規模言語モデル(LLM)を進化させるためのローランク適応(LoRA)である。
これらの課題に対処する新しい$textbfconditional recurrentfusion$フレームワークである$textttORAL$を紹介します。
我々は、$textttORAL$が、バニラ訓練されたパラメータと同等または優れたパフォーマンスを達成する高品質なLoRAパラメータを生成することを実証した。
論文 参考訳(メタデータ) (2025-03-31T17:34:59Z) - Adapting Large Language Models for Time Series Modeling via a Novel Parameter-efficient Adaptation Method [9.412920379798928]
時系列モデリングは多くの実世界のアプリケーションにおいて重要な意味を持つ。
我々は時系列と自然言語のモダリティを調整するためのTime-LlaMAフレームワークを提案する。
本稿では,提案手法がSOTA(State-of-the-art)性能を実現することを示す。
論文 参考訳(メタデータ) (2025-02-19T13:52:26Z) - LLaVA Steering: Visual Instruction Tuning with 500x Fewer Parameters through Modality Linear Representation-Steering [30.51487692912812]
MLLM(Multimodal Large Language Models)は、大規模言語モデル(LLM)に視覚表現を統合することで、視覚的タスクを大幅に進歩させる。
目的を達成するためにモダリティリニア表現ステアリング(MoReS)を導入する。
MoReSはモデル全体の固有のモダリティを効果的に再バランスさせ、そこでキーとなるアイデアは、各モデル層をまたいだ視覚部分空間の線形変換を通じて視覚表現を操ることである。
論文 参考訳(メタデータ) (2024-12-16T21:14:11Z) - Improving Multi-modal Large Language Model through Boosting Vision Capabilities [54.344077285545005]
視覚言語モデルを強化するための視覚理解能力の改善に注力する。
マルチモーダル言語モデルである textbfArcana を提案する。
論文 参考訳(メタデータ) (2024-10-17T16:36:38Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - FLoRA: Enhancing Vision-Language Models with Parameter-Efficient Federated Learning [6.648544684097181]
視覚と言語を視覚言語モデル(VLM)に統合するマルチモーダルモデル
本稿では,VLMの学習にフェデレートラーニングとパラメータ効率のよいアダプタを利用する新しい手法を提案する。
我々のアプローチでは、トレーニング時間を最大34.72倍に短縮し、完全な微調整よりも2.47倍のメモリ使用量を必要とする。
論文 参考訳(メタデータ) (2024-04-12T00:36:43Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - Searching Efficient Model-guided Deep Network for Image Denoising [61.65776576769698]
モデルガイド設計とNAS(MoD-NAS)をつなぐ新しいアプローチを提案する。
MoD-NASは、再利用可能な幅探索戦略と密結合された探索ブロックを用いて、各層の操作を自動的に選択する。
いくつかの一般的なデータセットに対する実験結果から、我々のMoD-NASは現在の最先端手法よりもPSNR性能が向上していることが示された。
論文 参考訳(メタデータ) (2021-04-06T14:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。