論文の概要: TAS-LoRA: Transformer Architecture Search with Mixture-of-LoRA Experts
- arxiv url: http://arxiv.org/abs/2605.07256v1
- Date: Fri, 08 May 2026 05:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.816474
- Title: TAS-LoRA: Transformer Architecture Search with Mixture-of-LoRA Experts
- Title(参考訳): TAS-LoRA: 混合LoRAエキスパートによるトランスフォーマーアーキテクチャ検索
- Authors: Jeimin Jeon, Hyunju Lee, Bumsub Ham,
- Abstract要約: Transformer Architecture Search (TAS)は、最適な視覚変換器(ViT)アーキテクチャを自動的に発見する。
既存のTASメソッドは機能崩壊の問題に悩まされており、スーパーネット内では特定の機能を学ぶことができない。
パラメータ効率の低いローランク適応(LoRA)を導入し,特徴学習を実現する新しい手法であるTAS-LoRAを提案する。
- 参考スコア(独自算出の注目度): 23.805252231218272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer architecture search (TAS) discovers optimal vision transformer (ViT) architectures automatically, reducing human effort to manually design ViTs. However, existing TAS methods suffer from the feature collapse problem, where subnets within a supernet fail to learn subnet-specific features, mainly due to the shared weights in a supernet, limiting the performance of individual subnets. To address this, we propose TAS-LoRA, a novel method that introduces parameter-efficient low-rank adaptation (LoRA) to enable subnet-specific feature learning, while maintaining computational efficiency. TAS-LoRA incorporates a Mixture-of-LoRAExperts (MoLE) strategy, where a lightweight router dynamically assigns LoRA experts based on subnet architectures, and introduces a group-wise router initialization technique to encourage diverse feature learning across experts early in training. Extensive experiments on ImageNet and several transfer learning benchmarks, including CIFAR-10/100, Flowers, CARS, and INAT-19, demonstrate that TAS-LoRA mitigates feature collapse effectively, improving performance over state-of-the-art TAS methods significantly.
- Abstract(参考訳): トランスフォーマーアーキテクチャサーチ(TAS)は、視覚変換器(ViT)アーキテクチャを自動で検出する。
しかし、既存のTAS手法は、スーパーネット内のサブネットがサブネット固有の特徴を学習できないという特徴崩壊の問題に悩まされ、主にスーパーネットにおける共有重み付けにより、個々のサブネットの性能が制限される。
そこで本研究では,サブネット固有の特徴学習を実現するために,パラメータ効率の低いローランク適応(LoRA)を導入した新しい手法であるTAS-LoRAを提案する。
TAS-LoRAはMixture-of-LoRAExperts (MoLE)戦略を取り入れており、軽量ルータはサブネットアーキテクチャに基づいてLoRAの専門家を動的に割り当てる。
ImageNet と CIFAR-10/100, Flowers, CARS, INAT-19 などの転送学習ベンチマークに関する大規模な実験では,TAS-LoRA が機能崩壊を効果的に軽減し,最先端のTAS 手法よりも性能を著しく向上させることを示した。
関連論文リスト
- GrowTAS: Progressive Expansion from Small to Large Subnets for Efficient ViT Architecture Search [32.4058548929608]
Transformer Architecture Search (TAS)は、効率的な視覚変換器(ViT)を自動的に発見することを目的としている。
既存のTASメソッドは同じ重みのセットを共有しており、それによって干渉が発生し、より小さなものを著しく劣化させる。
そこで我々は,GrowTASと呼ばれるプログレッシブトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-13T11:40:21Z) - LoRA in LoRA: Towards Parameter-Efficient Architecture Expansion for Continual Visual Instruction Tuning [12.165720711684758]
MLLMにおけるCVITに適した,高効率なアーキテクチャ拡張手法LiLoRAを紹介する。
LiLoRAはタスク間でLoRA行列Aを共有して冗長性を低減し、タスク固有のパラメータを最小化するために行列Bに追加の低ランク分解を適用し、コサイン規則化された安定性損失を組み込んで時間の経過とともに一貫性を維持する。
実験の結果,LiLoRAは逐次的タスク学習において一貫した性能を実現し,既存の手法に比べてパラメータ効率を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-08-08T10:32:38Z) - Exploring Sparse Adapters for Scalable Merging of Parameter Efficient Experts [72.22148263683037]
ニューラルネットワークの重みのサブセットのみをトレーニングするスパースアダプタの特性をモジュラーアーキテクチャの潜在的な構成要素として検討する。
まず,本論文の既存の手法よりも概念的にシンプルである,効果的なスパースアダプタの訓練方法を提案する。
次に,これらのスパースアダプタのマージ特性について,最大20の自然言語処理タスクに対して,アダプタをマージすることで検討する。
論文 参考訳(メタデータ) (2025-07-09T03:25:45Z) - Subnet-Aware Dynamic Supernet Training for Neural Architecture Search [34.085718250054136]
Nショットアーキテクチャサーチ(NAS)は、与えられた検索空間のすべての候補を含むスーパーネットを利用する。
スーパーネットトレーニングは低複雑さ(不公平)に偏っている
本稿では,これらの問題に対処するための動的スーパーネットトレーニング手法を提案する。
論文 参考訳(メタデータ) (2025-03-13T17:07:04Z) - Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。
最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。
本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-12T17:41:23Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with Architecture-Routed Mixture-of-Experts [55.470959564665705]
ウェイトシェアリングスーパーネットは、最先端のニューラルサーチフレームワークのパフォーマンス評価に不可欠である。
提案手法は,高速機械翻訳モデルのためのNASにおける最先端(SoTA)性能を実現する。
メモリ効率のよいタスク非依存のBERTモデルを構築するためにNASが優れている。
論文 参考訳(メタデータ) (2023-06-08T00:35:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。