論文の概要: EvoVLMA: Evolutionary Vision-Language Model Adaptation
- arxiv url: http://arxiv.org/abs/2508.01558v1
- Date: Sun, 03 Aug 2025 03:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.939645
- Title: EvoVLMA: Evolutionary Vision-Language Model Adaptation
- Title(参考訳): EvoVLMA:進化的ビジョンランゲージモデル適応
- Authors: Kun Ding, Ying Wang, Shiming Xiang,
- Abstract要約: 本稿では,視覚言語モデル(VLM)のための学習不要な適応アルゴリズムを自動検索する進化型視覚言語モデル適応法を提案する。
トレーニング不要なVLM適応において,特徴選択とロジットが重要な機能であると認識し,これらを逐次最適化するための2段階LLM支援進化アルゴリズムを提案する。
探索プロセスの安定性と効率性を高めるため,低精度コード変換,Webベースのコード実行,プロセス監視を提案する。
- 参考スコア(独自算出の注目度): 29.90102572721055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained Vision-Language Models (VLMs) have been exploited in various Computer Vision tasks (e.g., few-shot recognition) via model adaptation, such as prompt tuning and adapters. However, existing adaptation methods are designed by human experts, requiring significant time cost and experience. Inspired by recent advances in Large Language Models (LLMs) based code generation, we propose an Evolutionary Vision-Language Model Adaptation (EvoVLMA) method to automatically search training-free efficient adaptation algorithms for VLMs. We recognize feature selection and logits computation as the key functions in training-free VLM adaptation, and propose a two-stage LLM-assisted evolutionary algorithm for optimizing these parts in a sequential manner, effectively addressing the challenge posed by the expansive search space through a divide-and-conquer strategy. Besides, to enhance the stability and efficiency of searching process, we propose low-precision code conversion, web based code execution and process monitoring, leading to a highly effective automatic algorithm design system. Extensive experiments demonstrate that the algorithms found by EvoVLMA can obtain promising results compared to previous manually-designed ones. More specifically, in the 8-shot image classification setting, the classical APE algorithm can be improved by 1.91 points in recognition accuracy. This research opens new possibilities for automating the optimization of adaptation algorithms of pre-trained multimodal models. Code is available at: https://github.com/kding1225/EvoVLMA
- Abstract(参考訳): VLM(Pre-trained Vision-Language Models)は、様々なコンピュータビジョンタスク(例:少数ショット認識)において、プロンプトチューニングやアダプタなどのモデル適応を通じて活用されている。
しかし、既存の適応手法は人間の専門家によって設計されており、かなりの時間と経験を必要とする。
近年のLLM(Large Language Models)に基づくコード生成の進歩に触発されて,VLMの学習不要な効率的な適応アルゴリズムを自動検索する進化的視覚言語モデル適応法(EvoVLMA)を提案する。
トレーニング不要なVLM適応において,特徴選択とロジットの計算が重要な機能であると認識し,これらを逐次的に最適化する2段階のLLM支援進化アルゴリズムを提案する。
さらに,検索プロセスの安定性と効率性を高めるため,Webベースのコード実行とプロセス監視の低精度コード変換を提案し,高効率な自動アルゴリズム設計システムを実現する。
大規模な実験により、EvoVLMAが発見したアルゴリズムは、以前の手作業で設計されたアルゴリズムと比較して有望な結果が得られることが示された。
より具体的には、8ショット画像分類設定では、古典的APEアルゴリズムは認識精度が1.91ポイント向上する。
本研究は,事前学習したマルチモーダルモデルの適応アルゴリズムを最適化する新たな可能性を開く。
コードは、https://github.com/kding1225/EvoVLMAで入手できる。
関連論文リスト
- Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL [70.1326027641056]
視覚言語モデル(VLM)は、様々なコンピュータビジョンタスクにおいて印象的な性能を達成している。
本稿では,キー画像領域に適応的な焦点付けとズームインを行うことができるChain-of-Focus(CoF)手法を提案する。
教師付き微調整と強化学習を含む2段階の訓練パイプラインを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:18:15Z) - LLM-Guided Evolution: An Autonomous Model Optimization for Object Detection [0.0]
機械学習では、ニューラルネットワークサーチ(NAS)はモデル設計のドメイン知識と、有望なパフォーマンスを達成するために大量の試行錯誤を必要とする。
Large Language Model (LLM)-Guided Evolution (GE)フレームワークは、CIFARデータ上の画像分類アルゴリズムのモデルソースコードを直接修正するためにLLMを組み込むことによって、このアプローチを変革した。
LLM-GEは平均平均精度を92.5%から94.5%に向上させるなど,大幅な性能向上を図った。
論文 参考訳(メタデータ) (2025-04-03T05:06:06Z) - LLM Program Optimization via Retrieval Augmented Search [71.40092732256252]
提案手法は,提案手法によって最適化されたビーム探索を行う検索アルゴリズムであるRetrieval Augmented Search (RAS) である。
我々は、RASが従来の最先端のブラックボックス適応戦略よりも1.8$times$パフォーマンスが高いことを示す。
また、トレーニング例を「アトミックな編集」に分解することで、解釈可能性を向上させるAEGISと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2025-01-31T06:34:47Z) - Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Large Language Models as Surrogate Models in Evolutionary Algorithms: A Preliminary Study [5.6787965501364335]
サロゲートアシスト選択は、高価な最適化問題を解決する進化アルゴリズムの中核的なステップである。
伝統的に、これは従来の機械学習手法に依存しており、過去の評価を利用して新しいソリューションの性能を予測する。
本研究では,LLM推論機能に基づいた新しいサロゲートモデルを提案する。
論文 参考訳(メタデータ) (2024-06-15T15:54:00Z) - LLaMEA: A Large Language Model Evolutionary Algorithm for Automatically Generating Metaheuristics [0.023020018305241332]
本稿では,Large Language Model Evolutionary Algorithm (LLaMEA) フレームワークを紹介する。
一連の基準とタスク定義(検索空間)が与えられた後、LLaMEAは反復的にアルゴリズムを生成し、変更し、選択する。
我々は,このフレームワークを用いて,新しいブラックボックスメタヒューリスティック最適化アルゴリズムを自動生成する方法を示す。
論文 参考訳(メタデータ) (2024-05-30T15:10:59Z) - Large Language Models As Evolution Strategies [6.873777465945062]
本研究では,大規模言語モデル (LLM) が進化的最適化アルゴリズムを実装可能であるかどうかを考察する。
我々は,最小から最多の集団集団を選別する新規なプロンプト戦略を導入する。
我々の設定により、ユーザがLLMベースの進化戦略を得ることができ、それはEvoLLM'と呼ばれ、ベースラインアルゴリズムを頑健に上回る。
論文 参考訳(メタデータ) (2024-02-28T15:02:17Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Algorithm Evolution Using Large Language Model [18.03090066194074]
大規模言語モデル(AEL)を用いた進化的アルゴリズムを提案する。
AELはモデルトレーニングなしでアルゴリズムレベルの進化を行う。
人間の努力とドメイン知識の要求は大幅に削減できる。
論文 参考訳(メタデータ) (2023-11-26T09:38:44Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - AdaLead: A simple and robust adaptive greedy search algorithm for
sequence design [55.41644538483948]
我々は、容易で、拡張性があり、堅牢な進化的欲求アルゴリズム(AdaLead)を開発した。
AdaLeadは、様々な生物学的に動機づけられたシーケンスデザインの課題において、アートアプローチのより複雑な状態を克服する、驚くほど強力なベンチマークである。
論文 参考訳(メタデータ) (2020-10-05T16:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。