論文の概要: Artificial Entanglement in the Fine-Tuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2601.06788v1
- Date: Sun, 11 Jan 2026 06:34:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.986398
- Title: Artificial Entanglement in the Fine-Tuning of Large Language Models
- Title(参考訳): 大規模言語モデルの微調整における人工絡み合い
- Authors: Min Chen, Zihan Wang, Canyu Chen, Zeguan Wu, Manling Li, Junyu Liu,
- Abstract要約: 大規模言語モデル(LLM)はパラメータ効率細調整(PEFT)手法を用いて新しいタスクに適応することができる。
本研究では、量子情報に触発された視点を用いて、その効果を理解する。
- 参考スコア(独自算出の注目度): 37.29231114531405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can be adapted to new tasks using parameter-efficient fine-tuning (PEFT) methods that modify only a small number of trainable parameters, often through low-rank updates. In this work, we adopt a quantum-information-inspired perspective to understand their effectiveness. From this perspective, low-rank parameterizations naturally correspond to low-dimensional Matrix Product States (MPS) representations, which enable entanglement-based characterizations of parameter structure. Thereby, we term and measure "Artificial Entanglement", defined as the entanglement entropy of the parameters in artificial neural networks (in particular the LLMs). We first study the representative low-rank adaptation (LoRA) PEFT method, alongside full fine-tuning (FFT), using LLaMA models at the 1B and 8B scales trained on the Tulu3 and OpenThoughts3 datasets, and uncover: (i) Internal artificial entanglement in the updates of query and value projection matrices in LoRA follows a volume law with a central suppression (termed as the "Entanglement Valley"), which is sensitive to hyper-parameters and is distinct from that in FFT; (ii) External artificial entanglement in attention matrices, corresponding to token-token correlations in representation space, follows an area law with logarithmic corrections and remains robust to LoRA hyper-parameters and training steps. Drawing a parallel to the No-Hair Theorem in black hole physics, we propose that although LoRA and FFT induce distinct internal entanglement signatures, such differences do not manifest in the attention outputs, suggesting a "no-hair" property that results in the effectiveness of low rank updates. We further provide theoretical support based on random matrix theory, and extend our analysis to an MPS Adaptation PEFT method, which exhibits qualitatively similar behaviors.
- Abstract(参考訳): 大規模言語モデル(LLM)は、パラメータ効率の細かいチューニング(PEFT)メソッドを使用して新しいタスクに適応することができる。
本研究では、量子情報に触発された視点を用いて、その効果を理解する。
この観点から、低ランクパラメータ化は自然に低次元行列積状態(MPS)表現に対応し、パラメータ構造の絡み合いに基づく特徴付けを可能にする。
これにより、人工ニューラルネットワーク(特にLLM)におけるパラメータの絡み合いエントロピーとして定義される「人工絡み合い」を定義・測定する。
まず,LLaMAモデルをTulu3およびOpenThoughts3データセットでトレーニングした1Bおよび8Bスケールで使用し,完全微調整(FFT)とともに,代表的低ランク適応(LoRA)PEFT法について検討した。
一 ロRAにおけるクエリおよび値投影行列の更新における内部の人工的絡み合いは、過度パラメータに敏感で、FFTと異なる中心抑制(「絡み合い谷」という。)を伴う体積法に従っている。
二 注意行列における外部人工的絡み合いは、表現空間におけるトークン-トークン相関に対応し、対数補正を伴う領域法則に従い、LoRAハイパーパラメーター及びトレーニングステップに頑健である。
ブラックホール物理学におけるNo-Hair理論と平行に、LoRAとFFTは異なる内部絡み合いのシグネチャを誘導するが、注意出力にはそのような違いは現れず、低位更新の有効性をもたらす「no-hair」特性が示唆される。
さらに, 確率行列理論に基づく理論的支援を行い, 定性的に類似した振る舞いを示すMPS適応PEFT法に解析を拡張した。
関連論文リスト
- Sensitivity-LoRA: Low-Load Sensitivity-Based Fine-Tuning for Large Language Models [26.046100835887525]
Low-Rank Adaptation (LoRA) はLarge Language Models (LLM) に対する有望なアプローチとして登場し、低ランク分解を用いたモデルの重み付けを近似している。
本稿では,グローバルな感度と局所的な感度の両方に基づいて,動的にランクを重み行列に割り当てる,効率的な微調整法であるSensitivity-LoRAを提案する。
実験により,各種タスクおよびベンチマークにおける感度-LORAの有効性,効率,安定性が示された。
論文 参考訳(メタデータ) (2025-09-11T03:07:05Z) - TLoRA: Tri-Matrix Low-Rank Adaptation of Large Language Models [0.135975510645475]
TLoRAはトリマトリクスの低ランク適応法である。
我々は,TLoRAが既存の低ランク手法に匹敵する性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-04-25T23:11:10Z) - Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。
これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。
本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文 参考訳(メタデータ) (2025-04-01T14:36:45Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation [12.07880147193174]
モデルパラメータ内のデータと圧縮可能な力学の固有な低次元構造を利用することで、計算負担を伴わずにパラメータ化の利点を享受できることが示される。
提案手法は,低ランク行列と微調整言語モデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2024-06-06T14:29:49Z) - Data-free Weight Compress and Denoise for Large Language Models [96.68582094536032]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。