論文の概要: QuanTA: Efficient High-Rank Fine-Tuning of LLMs with Quantum-Informed Tensor Adaptation
- arxiv url: http://arxiv.org/abs/2406.00132v2
- Date: Fri, 01 Nov 2024 14:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:32:51.474818
- Title: QuanTA: Efficient High-Rank Fine-Tuning of LLMs with Quantum-Informed Tensor Adaptation
- Title(参考訳): QuanTA: 量子インフォームトテンソル適応によるLDMの高速高速微調整
- Authors: Zhuo Chen, Rumen Dangovski, Charlotte Loh, Owen Dugan, Di Luo, Marin Soljačić,
- Abstract要約: QuanTAは、大規模事前学習言語モデルのための推論オーバーヘッドのない、実装が容易で微調整の手法である。
従来の手法と比較して,QuanTAはコモンセンス推論,算術推論,拡張性を著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 8.376592479884042
- License:
- Abstract: We propose Quantum-informed Tensor Adaptation (QuanTA), a novel, easy-to-implement, fine-tuning method with no inference overhead for large-scale pre-trained language models. By leveraging quantum-inspired methods derived from quantum circuit structures, QuanTA enables efficient high-rank fine-tuning, surpassing the limitations of Low-Rank Adaptation (LoRA)--low-rank approximation may fail for complicated downstream tasks. Our approach is theoretically supported by the universality theorem and the rank representation theorem to achieve efficient high-rank adaptations. Experiments demonstrate that QuanTA significantly enhances commonsense reasoning, arithmetic reasoning, and scalability compared to traditional methods. Furthermore, QuanTA shows superior performance with fewer trainable parameters compared to other approaches and can be designed to integrate with existing fine-tuning algorithms for further improvement, providing a scalable and efficient solution for fine-tuning large language models and advancing state-of-the-art in natural language processing.
- Abstract(参考訳): 大規模事前学習型言語モデルに対する推論オーバーヘッドを伴わない新しい,実装が容易な微調整手法であるQuantum-informed Tensor Adaptation (QuanTA)を提案する。
量子回路構造から導かれた量子インスパイアされた手法を活用することで、QuanTAは、低ランク適応(LoRA)の限界を超える効率的な高ランク微調整を可能にし、複雑な下流タスクでは低ランク近似が失敗する可能性がある。
我々のアプローチは、効率的な高階適応を実現するために、普遍性定理とランク表現定理によって理論的に支持されている。
実験により、QuanTAは従来の手法と比較して、常識推論、算術推論、拡張性を著しく向上させることが示された。
さらに、QuunTAは他のアプローチと比べてトレーニング可能なパラメータが少なくて優れたパフォーマンスを示しており、さらなる改善のために既存の微調整アルゴリズムとの統合を設計できる。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - A First-order Generative Bilevel Optimization Framework for Diffusion Models [57.40597004445473]
拡散モデルは、データサンプルを反復的に分解して高品質な出力を合成する。
従来の二値法は無限次元の確率空間と禁制的なサンプリングコストのために失敗する。
我々はこの問題を生成的二段階最適化問題として定式化する。
従来の2段階法と拡散過程の非互換性を克服する。
論文 参考訳(メタデータ) (2025-02-12T21:44:06Z) - Q-MAML: Quantum Model-Agnostic Meta-Learning for Variational Quantum Algorithms [4.525216077859531]
モデル非依存メタラーニング(MAML)技術にインスパイアされた古典的手法を用いて,パラメータ化量子回路(PQC)を最適化するための新しいフレームワークを提案する。
我々のフレームワークはLearnerと呼ばれる古典的なニューラルネットワークを備えており、Learnerの出力を初期パラメータとしてPQCと相互作用する。
適応フェーズでは、学習者は変わらないまま、より正確な値に収束するために、いくつかのPQC更新しか必要としない。
論文 参考訳(メタデータ) (2025-01-10T12:07:00Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Towards Differentiable Multilevel Optimization: A Gradient-Based Approach [1.6114012813668932]
本稿では,多レベル最適化のための新しい勾配に基づくアプローチを提案する。
本手法は解の精度と収束速度を両立させながら計算複雑性を著しく低減する。
私たちの知る限りでは、これは暗黙の微分の一般的なバージョンを提供する最初のアルゴリズムの1つである。
論文 参考訳(メタデータ) (2024-10-15T06:17:59Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - Compact Multi-Threshold Quantum Information Driven Ansatz For Strongly Interactive Lattice Spin Models [0.0]
近似量子相互情報(QMI)に基づくアンザッツ建築の体系的手順を提案する。
提案手法は,QMI値に基づいて各層の量子ビット対が選択される層状アンサッツを生成し,より効率的な状態生成と最適化ルーチンを実現する。
その結果,Multi-QIDA法は高い精度を維持しながら計算複雑性を低減し,格子スピンモデルにおける量子シミュレーションに有望なツールであることがわかった。
論文 参考訳(メタデータ) (2024-08-05T17:07:08Z) - An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。
我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。
すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文 参考訳(メタデータ) (2020-10-01T18:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。