論文の概要: QuanTA: Efficient High-Rank Fine-Tuning of LLMs with Quantum-Informed Tensor Adaptation
- arxiv url: http://arxiv.org/abs/2406.00132v1
- Date: Fri, 31 May 2024 18:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 08:33:32.394232
- Title: QuanTA: Efficient High-Rank Fine-Tuning of LLMs with Quantum-Informed Tensor Adaptation
- Title(参考訳): QuanTA: 量子インフォームトテンソル適応によるLDMの高速高速微調整
- Authors: Zhuo Chen, Rumen Dangovski, Charlotte Loh, Owen Dugan, Di Luo, Marin Soljačić,
- Abstract要約: QuanTAは、大規模事前学習言語モデルのための推論オーバーヘッドのない、実装が容易で微調整の手法である。
従来の手法と比較して,QuanTAはコモンセンス推論,算術推論,拡張性を著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 8.376592479884042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Quantum-informed Tensor Adaptation (QuanTA), a novel, easy-to-implement, fine-tuning method with no inference overhead for large-scale pre-trained language models. By leveraging quantum-inspired methods derived from quantum circuit structures, QuanTA enables efficient high-rank fine-tuning, surpassing the limitations of Low-Rank Adaptation (LoRA)--low-rank approximation may fail for complicated downstream tasks. Our approach is theoretically supported by the universality theorem and the rank representation theorem to achieve efficient high-rank adaptations. Experiments demonstrate that QuanTA significantly enhances commonsense reasoning, arithmetic reasoning, and scalability compared to traditional methods. Furthermore, QuanTA shows superior performance with fewer trainable parameters compared to other approaches and can be designed to integrate with existing fine-tuning algorithms for further improvement, providing a scalable and efficient solution for fine-tuning large language models and advancing state-of-the-art in natural language processing.
- Abstract(参考訳): 大規模事前学習型言語モデルに対する推論オーバーヘッドを伴わない新しい,実装が容易な微調整手法であるQuantum-informed Tensor Adaptation (QuanTA)を提案する。
量子回路構造から導かれた量子インスパイアされた手法を活用することで、QuanTAは、低ランク適応(LoRA)の限界を超える効率的な高ランク微調整を可能にし、複雑な下流タスクでは低ランク近似が失敗する可能性がある。
我々のアプローチは、効率的な高階適応を実現するために、普遍性定理とランク表現定理によって理論的に支持されている。
実験により、QuanTAは従来の手法と比較して、常識推論、算術推論、拡張性を著しく向上させることが示された。
さらに、QuunTAは他のアプローチと比べてトレーニング可能なパラメータが少なくて優れたパフォーマンスを示しており、さらなる改善のために既存の微調整アルゴリズムとの統合を設計できる。
関連論文リスト
- Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Towards Differentiable Multilevel Optimization: A Gradient-Based Approach [1.6114012813668932]
本稿では,多レベル最適化のための新しい勾配に基づくアプローチを提案する。
本手法は解の精度と収束速度を両立させながら計算複雑性を著しく低減する。
私たちの知る限りでは、これは暗黙の微分の一般的なバージョンを提供する最初のアルゴリズムの1つである。
論文 参考訳(メタデータ) (2024-10-15T06:17:59Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - Compact Multi-Threshold Quantum Information Driven Ansatz For Strongly Interactive Lattice Spin Models [0.0]
近似量子相互情報(QMI)に基づくアンザッツ建築の体系的手順を提案する。
提案手法は,QMI値に基づいて各層の量子ビット対が選択される層状アンサッツを生成し,より効率的な状態生成と最適化ルーチンを実現する。
その結果,Multi-QIDA法は高い精度を維持しながら計算複雑性を低減し,格子スピンモデルにおける量子シミュレーションに有望なツールであることがわかった。
論文 参考訳(メタデータ) (2024-08-05T17:07:08Z) - Parameter Generation of Quantum Approximate Optimization Algorithm with Diffusion Model [3.6959187484738902]
量子コンピューティングは確率最適化の分野に革命をもたらす可能性がある。
本稿では,ハイブリッド量子古典アルゴリズムであるQuantum Approximate Optimization Algorithm (QAOA)を提案する。
拡散モデルでは, 高い性能パラメータの分布を学習し, 最適パラメータに近い新しいパラメータを合成できることが示される。
論文 参考訳(メタデータ) (2024-07-17T01:18:27Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。
我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。
すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文 参考訳(メタデータ) (2020-10-01T18:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。