論文の概要: ChameleonLLM: Batch-Aware Dynamic Low-Rank Adaptation via Inference-Time Clusters
- arxiv url: http://arxiv.org/abs/2502.04315v3
- Date: Tue, 11 Feb 2025 14:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:37.350214
- Title: ChameleonLLM: Batch-Aware Dynamic Low-Rank Adaptation via Inference-Time Clusters
- Title(参考訳): ChameleonLLM:推論時間クラスタによるバッチ対応動的低ランク適応
- Authors: Kamer Ali Yuksel, Hassan Sawaf,
- Abstract要約: 本稿では,大規模言語モデルの推論時間適応を可能にする新しいフレームワークであるChameleonLLMを紹介する。
Low-Rank Adaptation (LoRA)のような従来の微調整手法とは異なり、本手法はデコーダ重みに対する適応的な修正を動的に生成する。
同様の入力をインテリジェントにグループ化し、ハイパーネットワーク経由でコンテキスト対応の低ランク更新を演算することで、ChameleonLLMは大幅なパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 3.729242965449096
- License:
- Abstract: Recent advances in large language models (LLMs) have shown remarkable performance across diverse tasks. However, these models are typically deployed with fixed weights, which limits their ability to adapt dynamically to the variability inherent in real-world data during inference. This paper introduces ChameleonLLM, a novel framework that enables inference-time adaptation of LLMs by leveraging batch-aware clustering and on-the-fly generation of low-rank updates. Unlike traditional fine-tuning approaches such as Low-Rank Adaptation (LoRA) or methods that rely on a fixed set of pre-learned uniforms (changeable masks), our method dynamically generates adaptive modifications to the decoder weights based on the aggregated statistics of clustered batches. By intelligently grouping similar inputs and computing context-aware low-rank updates via a hyper-network, ChameleonLLM achieves significant performance gains, outperforming conventional LoRA methods while eliminating the overhead of maintaining multiple expert models. Our experiments highlight the potential of our approach to serve as a versatile and highly adaptive solution for language model inference. ChameleonLLM is open-sourced to ensure the reproducibility of our experiments: https://anonymous.4open.science/r/ChamaleonLLM/
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、様々なタスクにおいて顕著な性能を示している。
しかし、これらのモデルは一般に固定重量で展開され、推論中に現実世界のデータに固有の変動性に動的に適応する能力を制限する。
本稿では、バッチ対応クラスタリングと低ランク更新のオンザフライ生成を活用することで、LLMの推論時適応を可能にする新しいフレームワークであるChameleonLLMを紹介する。
LoRA(Lo-Rank Adaptation)のような従来の微調整手法とは異なり,本手法はクラスタ化されたバッチの集計統計に基づいて,デコーダ重みに対する適応的な修正を動的に生成する。
同様の入力をインテリジェントにグループ化し、ハイパーネットワークを介してコンテキスト対応の低ランク更新を演算することにより、ChameleonLLMは、複数の専門家モデルを維持するオーバーヘッドを排除しつつ、従来のLoRAメソッドよりも優れたパフォーマンス向上を実現している。
我々の実験は、言語モデル推論のための汎用的で高度に適応的なソリューションとして機能するアプローチの可能性を強調した。
ChameleonLLMは、我々の実験の再現性を保証するためにオープンソース化されている。
関連論文リスト
- Locally Adaptive One-Class Classifier Fusion with Dynamic $\ell$p-Norm Constraints for Robust Anomaly Detection [17.93058599783703]
局所的なデータ特性に基づいて,融合重みを動的に調整するフレームワークを提案する。
本手法は,計算効率を大幅に向上させる内部点最適化手法を取り入れたものである。
計算効率を維持しながらローカルなデータパターンに適応できるフレームワークの能力は、リアルタイムアプリケーションに特に有用である。
論文 参考訳(メタデータ) (2024-11-10T09:57:13Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Class-Incremental Learning with CLIP: Adaptive Representation Adjustment and Parameter Fusion [10.322832012497722]
クラス増分学習(class-incremental learning)は難しい問題であり、目標は、時間とともに増加するクラスからデータを分類できるモデルをトレーニングすることである。
CLIPのような視覚言語で事前訓練されたモデルの進歩により、彼らは優れた一般化能力を示した。
しかし、単にモデルを微調整することで、下流タスクへのさらなる適応は、ひどく忘れてしまう。
事前訓練されたモデルを用いた既存の研究の多くは、モデルが新しい知識を得るとき、古いクラスを忘れることは一様であると仮定している。
論文 参考訳(メタデータ) (2024-07-19T09:20:33Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。
従来の手法では、固定パラメータ空間に依存する静的適応を広く採用し、逐次到着するデータから学習する。
本稿では、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整する2つの選択型SSMプロジェクタを提案する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Continual learning using lattice-free MMI for speech recognition [6.802401545890963]
連続学習(CL)または領域拡張(ドメイン拡張)は、自動音声認識(ASR)音響モデリングにおいて一般的なトピックである。
格子フリー最大相互情報(LF-MMI)基準で学習したニューラルネットワーク音響モデルの正規化に基づくCLを提案する。
シーケンスレベルのLWFは、通常のLWFと比較して、全ドメインの平均単語誤り率を最大9.4%向上させることができることを示す。
論文 参考訳(メタデータ) (2021-10-13T22:11:11Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z) - Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。
MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。
実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文 参考訳(メタデータ) (2021-06-16T16:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。