論文の概要: Towards Understanding Fine-Tuning Mechanisms of LLMs via Circuit Analysis
- arxiv url: http://arxiv.org/abs/2502.11812v1
- Date: Mon, 17 Feb 2025 13:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:16:55.065702
- Title: Towards Understanding Fine-Tuning Mechanisms of LLMs via Circuit Analysis
- Title(参考訳): 回路解析によるLCMの微調整機構の解明に向けて
- Authors: Xu Wang, Yan Hu, Wenyu Du, Reynold Cheng, Benyou Wang, Difan Zou,
- Abstract要約: 本稿では,回路解析による微調整プロセスの深い解釈を実現することを目的とする。
我々は、細調整中の様々なチェックポイントの回路を同定し、回路解析、細調整方法、タスク複雑度の間の相互作用を調べる。
- 参考スコア(独自算出の注目度): 37.37040454356059
- License:
- Abstract: Fine-tuning significantly improves the performance of Large Language Models (LLMs), yet its underlying mechanisms remain poorly understood. This paper aims to provide an in-depth interpretation of the fine-tuning process through circuit analysis, a popular tool in Mechanistic Interpretability (MI). Unlike previous studies \cite{prakash2024finetuningenhancesexistingmechanisms,chhabra2024neuroplasticity} that focus on tasks where pre-trained models already perform well, we develop a set of mathematical tasks where fine-tuning yields substantial performance gains, which are closer to the practical setting. In our experiments, we identify circuits at various checkpoints during fine-tuning and examine the interplay between circuit analysis, fine-tuning methods, and task complexities. First, we find that while circuits maintain high node similarity before and after fine-tuning, their edges undergo significant changes, which is in contrast to the previous work \cite{prakash2024finetuningenhancesexistingmechanisms,chhabra2024neuroplasticity} that show circuits only add some additional components after fine-tuning. Based on these observations, we develop a circuit-aware Low-Rank Adaptation (LoRA) method, which assigns ranks to layers based on edge changes in the circuits. Experimental results demonstrate that our circuit-based LoRA algorithm achieves an average performance improvement of 2.46\% over standard LoRA with similar parameter sizes. Furthermore, we explore how combining circuits from subtasks can enhance fine-tuning in compositional tasks, providing new insights into the design of such tasks and deepening the understanding of circuit dynamics and fine-tuning mechanisms.
- Abstract(参考訳): 微調整はLarge Language Models (LLMs) の性能を大幅に改善するが、その基盤となるメカニズムはよく分かっていない。
本稿では,メカニスティック・インタプリタビリティ(MI)において人気のツールである回路解析による微調整プロセスの深い解釈を実現することを目的とする。
事前学習されたモデルがすでに良好に機能するタスクに焦点をあてた従来の研究とは異なり、微調整により性能が大幅に向上し、実用的な設定に近い数学的なタスクのセットを開発する。
本実験では, 細調整中の各種チェックポイントの回路を同定し, 回路解析, 細調整方法, タスク複雑度間の相互作用について検討する。
まず、回路は細調整前後に高いノード類似性を保っているが、そのエッジは大幅に変化しており、これは前の研究である「cite{prakash2024finetuningenhancessexistingmechanisms,chhabra2024neuroplasticity"」とは対照的である。
これらの観測に基づいて,回路のエッジ変化に基づいて階層にランクを割り当てる回路対応低ランク適応法(LoRA)を開発した。
実験の結果,回路ベースLoRAアルゴリズムは,パラメータサイズが類似した標準LoRAよりも平均2.46倍の性能向上を実現していることがわかった。
さらに,サブタスクからの回路の組み合わせによって構成タスクの微調整が向上し,そのようなタスクの設計に対する新たな洞察を与え,回路力学や微細調整機構の理解を深める方法について検討する。
関連論文リスト
- Trainability maximization using estimation of distribution algorithms assisted by surrogate modelling for quantum architecture search [8.226785409557598]
量子アーキテクチャサーチ(QAS)は、量子パラメトリック回路の構成を最適化するだけでなく、変分量子アルゴリズムのパラメータも最適化する。
本稿では,(1)粗悪な性能のアーキテクチャを積極的に破棄する評価プロセスのオンラインサロゲートモデルによる測定数を削減し,(2)BPが存在する場合の回路のトレーニングを避けることを目的とした。
我々は、変分量子固有解法の提案を実験的に検証し、我々のアルゴリズムがハミルトニアンの文献でこれまで提案されていた解を見つけることができることを示した。
論文 参考訳(メタデータ) (2024-07-29T15:22:39Z) - Functional Faithfulness in the Wild: Circuit Discovery with Differentiable Computation Graph Pruning [14.639036250438517]
本稿では、DiscoGPとともにCircuit Discoveryと呼ばれるタスクを包括的に再構築する。
DiscoGPは、回路発見のための識別可能なマスキングに基づく、新しく効果的なアルゴリズムである。
論文 参考訳(メタデータ) (2024-07-04T09:42:25Z) - Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。
動作方法や期待されるダイナミクスについてはほとんど分かっていない。
非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文 参考訳(メタデータ) (2024-06-11T13:29:34Z) - Adaptive Planning Search Algorithm for Analog Circuit Verification [53.97809573610992]
シミュレーションの少ない機械学習(ML)アプローチを提案する。
提案手法により,OCCを全回路の仕様に近づけることができることを示す。
論文 参考訳(メタデータ) (2023-06-23T12:57:46Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Quantum Alternating Operator Ansatz (QAOA) beyond low depth with
gradually changing unitaries [0.0]
本稿では,量子交互演算子アンザッツ回路の動作を制御する機構について検討する。
離散的断熱定理を用いて、連続時間断熱定理から得られる洞察を補完し一般化する。
分析では,最近導入されたQAOAパフォーマンス図で顕著に示されているいくつかの一般的な特性について説明する。
論文 参考訳(メタデータ) (2023-05-08T04:21:42Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z) - Large-Scale Meta-Learning with Continual Trajectory Shifting [76.29017270864308]
メタリアナーがより多くの内部勾配ステップをとれるようにすることで、ヘテロジニアスタスクや大規模タスクの構造をよりよく把握できることを示す。
メタ更新の頻度を増やすために、タスク固有のパラメータの必要なシフトを推定することを提案する。
このアルゴリズムは, 一般化性能と収束性の両方において, 先行する一階メタ学習法を大きく上回っていることを示す。
論文 参考訳(メタデータ) (2021-02-14T18:36:33Z) - DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator
Search [55.164053971213576]
畳み込みニューラルネットワークは,計算オーバーヘッドが大きいにもかかわらず,コンピュータビジョンタスクの実行において大きな成功を収めている。
構造的(チャネル)プルーニングは、通常、ネットワーク構造を保ちながらモデルの冗長性を低減するために適用される。
既存の構造化プルーニング法では、手作りのルールが必要であり、これは大きなプルーニング空間に繋がる可能性がある。
論文 参考訳(メタデータ) (2020-11-04T07:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。