論文の概要: HyDRA: Hierarchical and Dynamic Rank Adaptation for Mobile Vision Language Model
- arxiv url: http://arxiv.org/abs/2512.20674v1
- Date: Sat, 20 Dec 2025 10:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.556574
- Title: HyDRA: Hierarchical and Dynamic Rank Adaptation for Mobile Vision Language Model
- Title(参考訳): HyDRA: モバイルビジョン言語モデルのための階層的および動的ランク適応
- Authors: Yuanhao Xi, Xiaohuan Bing, Ramin Yahyapour,
- Abstract要約: HyDRAは、階層的および動的階数スケジューリングを実装するために設計されたパラメータ効率の良い微調整フレームワークである。
ベースラインを一貫して上回り、トレーニング可能なパラメータの数を増やすことなく、様々なモデルサイズで4.7%の改善を実現している。
- 参考スコア(独自算出の注目度): 3.5289584887206313
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision Language Models (VLMs) have undergone significant advancements, particularly with the emergence of mobile-oriented VLMs, which offer a wide range of application scenarios. However, the substantial computational requirements for training these models present a significant obstacle to their practical application. To address this issue, Low-Rank Adaptation (LoRA) has been proposed. Nevertheless, the standard LoRA with a fixed rank lacks sufficient capability for training mobile VLMs that process both text and image modalities. In this work, we introduce HyDRA, a parameter-efficient fine-tuning framework designed to implement hierarchical and dynamic rank scheduling for mobile VLMs. This framework incorporates two essential optimization strategies: (1) hierarchical optimization, which involves a coarse-grained approach that assigns different ranks to various layers, as well as a fine-grained method that adjusts ranks within individual layers, and (2) dynamic adjustment, which employs an end-to-end automatic optimization using a lightweight performance model to determine and adjust ranks during the fine-tuning process. Comprehensive experiments conducted on popular benchmarks demonstrate that HyDRA consistently outperforms the baseline, achieving a 4.7\% improvement across various model sizes without increasing the number of trainable parameters. In some tasks, it even surpasses full-parameter fine-tuning.
- Abstract(参考訳): ビジョン言語モデル(VLM)は、特に幅広いアプリケーションシナリオを提供するモバイル指向のVLMの出現によって、大きな進歩を遂げている。
しかし、これらのモデルを訓練するためのかなりの計算量の要求は、それらの実践的応用に重大な障害をもたらす。
この問題に対処するため、LoRA (Lo-Rank Adaptation) が提案されている。
それでも、固定ランクの標準のLoRAは、テキストと画像のモダリティの両方を処理するモバイルVLMのトレーニング能力に欠けていた。
本稿では,モバイルVLMの階層的および動的階数スケジューリングを実現するために設計されたパラメータ効率の高い微調整フレームワークであるHyDRAを紹介する。
本フレームワークは,(1)各階層に異なるランクを割り当てる粗粒度アプローチを伴う階層最適化,(2)各階層のランクを調整する細粒度手法,(2)軽量なパフォーマンスモデルを用いたエンドツーエンドの自動最適化による微粒度調整という2つの重要な最適化手法を含む。
一般的なベンチマークで実施された総合的な実験により、HyDRAはトレーニング可能なパラメータの数を増やすことなく、様々なモデルサイズで4.7 %の改善を達成し、ベースラインを一貫して上回っていることが示されている。
一部のタスクでは、フルパラメータの微調整を超えています。
関連論文リスト
- Hierarchical Optimization via LLM-Guided Objective Evolution for Mobility-on-Demand Systems [9.979671028876464]
動的階層システムにおいて,大規模言語モデル(LLM)と数学的最適化を統合した新しいフレームワークを提案する。
このフレームワーク内では、LLMはメタ最適化として機能し、制約執行とリアルタイム決定実行に責任を負う低レベルのセマンティクスを生成する。
ニューヨークとシカゴの両方のタクシーデータに基づく実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2025-10-12T14:56:19Z) - DynaSwarm: Dynamically Graph Structure Selection for LLM-based Multi-agent System [0.276240219662896]
DynaSwarmはマルチエージェントシステムを強化する動的フレームワークである。
グラフ構造を最適化するためにアクター-批判的強化学習機構を使用する。
また、動的グラフセレクタを持ち、各入力サンプルに対して最適なグラフ構造を適応的に選択する。
論文 参考訳(メタデータ) (2025-07-31T05:52:30Z) - Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence [131.41894248194995]
タスク認識方式でアダプタを初期化する新しい手法であるコンテキスト指向分解適応(CorDA)を提案する。
本手法は,タスク認識により,知識保存モード (KPM) と命令レビューモード (IPM) の2つのオプション適応モードを実現する。
論文 参考訳(メタデータ) (2025-06-16T07:55:14Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [48.15777554876988]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - MetaLoRA: Tensor-Enhanced Adaptive Low-Rank Fine-tuning [23.735592086378194]
Low-Rank Adaptation (LoRA) は有望なパラメータ効率の微調整法として登場した。
現在のLoRAの変種は、動的パラメータ調整とメタ学習能力の重要性を克服しながら、一般的なパラメータの削減に重点を置いている。
本研究は,タスク関係をモデル化するためのLoRA生成手法を提案し,新しいパラメータ効率適応フレームワークであるMetaLoRAを紹介する。
論文 参考訳(メタデータ) (2025-04-01T06:34:26Z) - Dynamic Adaptation of LoRA Fine-Tuning for Efficient and Task-Specific Optimization of Large Language Models [0.7421845364041001]
本稿では,大規模言語モデル-動的LoRAのためのファインチューニング手法を提案する。
効率と性能を改善するために動的適応機構を追加します。
動的LoRAの効率は、ベンチマークデータセットの実験で検証された。
論文 参考訳(メタデータ) (2025-01-24T18:54:14Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。