論文の概要: AirLLM: Diffusion Policy-based Adaptive LoRA for Remote Fine-Tuning of LLM over the Air
- arxiv url: http://arxiv.org/abs/2507.11515v1
- Date: Tue, 15 Jul 2025 17:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.209047
- Title: AirLLM: Diffusion Policy-based Adaptive LoRA for Remote Fine-Tuning of LLM over the Air
- Title(参考訳): AirLLM:拡散政策に基づくLLM遠隔微調整用適応LORA
- Authors: Shiyi Yang, Xiaoxue Yu, Rongpeng Li, Jianhang Zhu, Zhifeng Zhao, Honggang Zhang,
- Abstract要約: AirLLMは、コミュニケーションを意識したLoRA適応のための階層的な拡散ポリシーフレームワークである。
AirLLMは、送信コストを大幅に削減しつつ、微調整性能を継続的に向上させる。
- 参考スコア(独自算出の注目度): 14.089748643405498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Operating Large Language Models (LLMs) on edge devices is increasingly challenged by limited communication bandwidth and strained computational and memory costs. Thus, cloud-assisted remote fine-tuning becomes indispensable. Nevertheless, existing Low-Rank Adaptation (LoRA) approaches typically employ fixed or heuristic rank configurations, and the subsequent over-the-air transmission of all LoRA parameters could be rather inefficient. To address this limitation, we develop AirLLM, a hierarchical diffusion policy framework for communication-aware LoRA adaptation. Specifically, AirLLM models the rank configuration as a structured action vector that spans all LoRA-inserted projections. To solve the underlying high-dimensional sequential decision-making problem, a Proximal Policy Optimization (PPO) agent generates coarse-grained decisions by jointly observing wireless states and linguistic complexity, which are then refined via Denoising Diffusion Implicit Models (DDIM) to produce high-resolution, task- and channel-adaptive rank vectors. The two modules are optimized alternatively, with the DDIM trained under the Classifier-Free Guidance (CFG) paradigm to maintain alignment with PPO rewards. Experiments under varying signal-to-noise ratios demonstrate that AirLLM consistently enhances fine-tuning performance while significantly reducing transmission costs, highlighting the effectiveness of reinforcement-driven, diffusion-refined rank adaptation for scalable and efficient remote fine-tuning over the air.
- Abstract(参考訳): エッジデバイス上でのLLM(Large Language Models)の運用は、通信帯域幅の制限と、計算とメモリコストの制約により、ますます困難になっている。
したがって、クラウド支援の遠隔微調整は不可欠である。
それでも、既存のローランド適応(LoRA)アプローチでは、固定階数やヒューリスティック階数の設定が一般的であり、その後の全てのLoRAパラメータのオーバー・ザ・エア伝送は、かなり非効率である可能性がある。
この制限に対処するため,コミュニケーションを意識したLoRA適応のための階層的拡散ポリシーフレームワークであるAirLLMを開発した。
具体的には、AirLLMはランク構成を全てのLoRA挿入プロジェクションにまたがる構造化されたアクションベクトルとしてモデル化する。
基礎となる高次元の逐次意思決定問題を解決するため、PPOエージェントは、無線状態と言語的複雑さを共同で観察することで粗い決定を発生させ、次にDiffusion Implicit Models(DDIM)を介して洗練し、高分解能、タスク適応およびチャネル適応的なランクベクトルを生成する。
2つのモジュールは代わりに最適化されており、DDIMはPPO報酬との整合性を維持するためにCFG(Classifier-Free Guidance)パラダイムで訓練されている。
信号対雑音比の異なる実験により、AirLLMは微調整性能を一貫して向上し、伝送コストを著しく低減し、拡張駆動で拡散精錬された高度適応の有効性を強調した。
関連論文リスト
- Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Communication-Efficient Wireless Federated Fine-Tuning for Large-Scale AI Models [13.742950928229078]
Low-Rank Adaptation (LoRA) は、完全に微調整された大型モデルではなく、コンパクトで低ランクな行列を訓練することでこれらの問題に対処する。
本稿では,学習性能と通信効率の両方を最適化する無線フェデレーションLoRAファインチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-01T06:15:38Z) - Efficient Split Federated Learning for Large Language Models over Communication Networks [45.02252893286613]
分散方式で訓練済みの大規模言語モデル(LLM)を微調整することで、リソース制約のあるエッジネットワークにおいて大きな課題が生じる。
本稿では,分割フェデレーション学習とパラメータ効率のよい微調整技術を統合する新しいフレームワークであるSflLLMを提案する。
モデル分割とローランク適応(LoRA)を活用することにより、SflLLMはエッジデバイスの計算負担を軽減する。
論文 参考訳(メタデータ) (2025-04-20T16:16:54Z) - Federated Sketching LoRA: On-Device Collaborative Fine-Tuning of Large Language Models [18.782733798668122]
デバイス上での微調整大型言語モデル(LLM)は依然として難しい問題である。
近年のローランク適応 (LoRA) 技術は, デバイスモデルのサイズやデータ不足に伴う課題を軽減するために, ファインチューニングを併用している。
サーバが保持するグローバルなLoRAモジュールのサブマトリクスを選択的に更新するために,スケッチ機構を活用したフェデレートスケッチLoRAを提案する。
論文 参考訳(メタデータ) (2025-01-31T18:44:35Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - LoRA-FAIR: Federated LoRA Fine-Tuning with Aggregation and Initialization Refinement [5.162783756846019]
ファンデーションモデル(FM)は、タスク固有の微調整によって、多様なタスクにまたがる強力なパフォーマンスを実現する。
低ランク適応 (LoRA) のようなローランク適応 (LoRA) 手法は、少ないパラメータをチューニングするための低ランク行列を導入することで、このコストを削減する。
LoRA-FAIRは計算と通信の効率を維持し、最先端の手法よりも優れた性能が得られる。
論文 参考訳(メタデータ) (2024-11-22T14:19:01Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - Towards Robust and Efficient Federated Low-Rank Adaptation with Heterogeneous Clients [6.570712059945705]
低ランク適応(LoRA)は解法として提案されているが、連合学習におけるその応用は集約の不一致によって複雑である。
この不一致に対処する既存の手法は、不均一なデータ設定で低いランクでの性能劣化に悩まされることが多い。
LoRA-A$2$を導入し、低いランクと高いデータ不均一性を持つ挑戦的な設定において堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-30T08:48:21Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。