Fugu-MT 論文翻訳(概要): Circuit-tuning: A Mechanistic Approach for Identifying Parameter Redundancy and Fine-tuning Neural Networks

論文の概要: Circuit-tuning: A Mechanistic Approach for Identifying Parameter Redundancy and Fine-tuning Neural Networks

arxiv url: http://arxiv.org/abs/2502.06106v1
Date: Mon, 10 Feb 2025 02:35:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:50.654059
Title: Circuit-tuning: A Mechanistic Approach for Identifying Parameter Redundancy and Fine-tuning Neural Networks
Title（参考訳）: 回路チューニング:パラメータ冗長性と微調整ニューラルネットワークの同定のための力学的アプローチ
Authors: Yueyan Li, Caixia Yuan, Xiaojie Wang,
Abstract要約: 本研究では,微調整のための解釈可能な手法を開発し,学習の背景にあるメカニズムを明らかにする。まず,本質的な次元の拡張としてノード冗長性の概念を提案し,新しい視点から回路発見の背後にある概念を説明する。この理論に基づいて、回路探索を反復的に行う2段階のアルゴリズムであるサーキットチューニングを提案し、無関係なエッジをマスクアウトし、特定のタスクに責任を負う残りのパラメータを更新する。
参考スコア（独自算出の注目度）: 8.583130802344447
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The study of mechanistic interpretability aims to reverse-engineer a model to explain its behaviors. While recent studies have focused on the static mechanism of a certain behavior, the training dynamics inside a model remain to be explored. In this work, we develop an interpretable method for fine-tuning and reveal the mechanism behind learning. We first propose the concept of node redundancy as an extension of intrinsic dimension and explain the idea behind circuit discovery from a fresh view. Based on the theory, we propose circuit-tuning, a two-stage algorithm that iteratively performs circuit discovery to mask out irrelevant edges and updates the remaining parameters responsible for a specific task. Experiments show that our method not only improves performance on a wide range of tasks but is also scalable while preserving general capabilities. We visualize and analyze the circuits before, during, and after fine-tuning, providing new insights into the self-organization mechanism of a neural network in the learning process.
Abstract（参考訳）: 機械論的解釈可能性の研究は、その振る舞いを説明するためにモデルをリバースエンジニアリングすることを目的としている。最近の研究では、ある振る舞いの静的なメカニズムに焦点が当てられているが、モデル内のトレーニングのダイナミクスについてはまだ検討が続けられている。本研究では,微調整のための解釈可能な手法を開発し,学習の背景となるメカニズムを明らかにする。まず,本質的な次元の拡張としてノード冗長性の概念を提案し,新しい視点から回路発見の背後にある概念を説明する。この理論に基づいて、回路探索を反復的に行う2段階のアルゴリズムであるサーキットチューニングを提案し、無関係なエッジをマスクアウトし、特定のタスクに責任を負う残りのパラメータを更新する。実験により,本手法は幅広いタスクの性能向上だけでなく,汎用性を保ちながらスケーラブルであることが示された。我々は、学習過程におけるニューラルネットワークの自己組織化メカニズムに関する新たな洞察を提供する、微調整の前、中、後の各回路を可視化し、分析する。

関連論文リスト

KPFlow: An Operator Perspective on Dynamic Collapse Under Gradient Descent Training of Recurrent Networks [9.512147747894026]
勾配流を2つの作用素を含む積に分解する方法を示す。それらの相互作用がGDの下での低次元潜在力学にどのように影響するかを示す。マルチタスクトレーニングでは,各サブタスクの目的がどのように一致しているかを演算子を用いて測定できることが示される。
論文参考訳（メタデータ） (2025-07-08T20:33:15Z)
Towards Understanding Fine-Tuning Mechanisms of LLMs via Circuit Analysis [37.37040454356059]
本稿では,回路解析による微調整プロセスの深い解釈を実現することを目的とする。我々は、細調整中の様々なチェックポイントの回路を同定し、回路解析、細調整方法、タスク複雑度の間の相互作用を調べる。
論文参考訳（メタデータ） (2025-02-17T13:59:41Z)
Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。 3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文参考訳（メタデータ） (2024-10-31T22:54:34Z)
A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文参考訳（メタデータ） (2024-09-18T14:57:13Z)
Dynamics of Meta-learning Representation in the Teacher-student Scenario [8.099691748821114]
教師-学生シナリオにおけるストリーミングタスクを訓練した非線形二層ニューラルネットワークのメタラーニングダイナミクスについて検討する。本稿では,メタトレーニングプロセスのマクロな挙動,共有表現の形成,新しいタスクにおけるモデルの一般化能力を特徴付ける。
論文参考訳（メタデータ） (2024-08-22T16:59:32Z)
Axiomatic Causal Interventions for Reverse Engineering Relevance Computation in Neural Retrieval Models [20.29451537633895]
本稿では,ニューラルランサーのリバースエンジニアリングにおける因果介入法を提案する。本稿では, 項周波数公理を満たす成分を分離するために, 機械的解釈可能性法をどのように利用できるかを示す。
論文参考訳（メタデータ） (2024-05-03T22:30:15Z)
Unraveling Feature Extraction Mechanisms in Neural Networks [10.13842157577026]
本稿では, ニューラルネットワークカーネル(NTK)に基づく理論的手法を提案し, そのメカニズムを解明する。これらのモデルが勾配降下時の統計的特徴をどのように活用し、最終決定にどのように統合されるかを明らかにする。自己注意モデルとCNNモデルはn-gramの学習の限界を示すが、乗算モデルはこの領域で優れていると考えられる。
論文参考訳（メタデータ） (2023-10-25T04:22:40Z)
Understanding Activation Patterns in Artificial Neural Networks by Exploring Stochastic Processes [0.0]
我々はこれまで未利用であったプロセスの枠組みを活用することを提案する。我々は、実際のニューロンスパイク列車に使用される神経科学技術を活用した、アクティベーション周波数のみに焦点をあてる。各ネットワークにおけるアクティベーションパターンを記述するパラメータを導出し、アーキテクチャとトレーニングセット間で一貫した差異を明らかにする。
論文参考訳（メタデータ） (2023-08-01T22:12:30Z)
ConCerNet: A Contrastive Learning Based Framework for Automated Conservation Law Discovery and Trustworthy Dynamical System Prediction [82.81767856234956]
本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。本手法は, 座標誤差と保存量の両方において, ベースラインニューラルネットワークよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-02-11T21:07:30Z)
Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-06T20:43:37Z)
LQResNet: A Deep Neural Network Architecture for Learning Dynamic Processes [9.36739413306697]
データ駆動型アプローチ、すなわちオペレータ推論フレームワークは、動的プロセスをモデル化する。演算子推論と特定のディープニューラルネットワークアプローチを組み合わせることで、システムの未知の非線形ダイナミクスを推定することを提案する。
論文参考訳（メタデータ） (2021-03-03T08:19:43Z)
Neural Dynamic Mode Decomposition for End-to-End Modeling of Nonlinear Dynamics [49.41640137945938]
ニューラルネットワークに基づくリフト関数を推定するためのニューラルダイナミックモード分解法を提案する。提案手法により,予測誤差はニューラルネットワークとスペクトル分解によって逆伝搬される。提案手法の有効性を,固有値推定と予測性能の観点から実証した。
論文参考訳（メタデータ） (2020-12-11T08:34:26Z)
Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文参考訳（メタデータ） (2020-11-18T18:52:08Z)
Developing Constrained Neural Units Over Time [81.19349325749037]
本稿では,既存のアプローチと異なるニューラルネットワークの定義方法に焦点をあてる。ニューラルネットワークの構造は、データとの相互作用にも拡張される制約の特別なクラスによって定義される。提案した理論は時間領域にキャストされ, データを順序づけられた方法でネットワークに提示する。
論文参考訳（メタデータ） (2020-09-01T09:07:25Z)
Untangling tradeoffs between recurrence and self-attention in neural networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文参考訳（メタデータ） (2020-06-16T19:24:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。