Fugu-MT 論文翻訳(概要): SoK: On Finding Common Ground in Loss Landscapes Using Deep Model Merging Techniques

論文の概要: SoK: On Finding Common Ground in Loss Landscapes Using Deep Model Merging Techniques

arxiv url: http://arxiv.org/abs/2410.12927v1
Date: Wed, 16 Oct 2024 18:14:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.56732
Title: SoK: On Finding Common Ground in Loss Landscapes Using Deep Model Merging Techniques
Title（参考訳）: SoK:Deep Model Merging法による失われた景観の共通地発見について
Authors: Arham Khan, Todd Nief, Nathaniel Hudson, Mansi Sakarvadia, Daniel Grzenda, Aswathy Ajith, Jordan Pettyjohn, Kyle Chard, Ian Foster,
Abstract要約: 本稿では,モデルマージ手法の新たな分類法を提案する。これらの分野における文献からの反復的な経験的観察を,ロスランドスケープ幾何学の4つの主要な側面のキャラクタリゼーションに用いた。
参考スコア（独自算出の注目度）: 4.013324399289249
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding neural networks is crucial to creating reliable and trustworthy deep learning models. Most contemporary research in interpretability analyzes just one model at a time via causal intervention or activation analysis. Yet despite successes, these methods leave significant gaps in our understanding of the training behaviors of neural networks, how their inner representations emerge, and how we can predictably associate model components with task-specific behaviors. Seeking new insights from work in related fields, here we survey literature in the field of model merging, a field that aims to combine the abilities of various neural networks by merging their parameters and identifying task-specific model components in the process. We analyze the model merging literature through the lens of loss landscape geometry, an approach that enables us to connect observations from empirical studies on interpretability, security, model merging, and loss landscape analysis to phenomena that govern neural network training and the emergence of their inner representations. To systematize knowledge in this area, we present a novel taxonomy of model merging techniques organized by their core algorithmic principles. Additionally, we distill repeated empirical observations from the literature in these fields into characterizations of four major aspects of loss landscape geometry: mode convexity, determinism, directedness, and connectivity. We argue that by improving our understanding of the principles underlying model merging and loss landscape geometry, this work contributes to the goal of ensuring secure and trustworthy machine learning in practice.
Abstract（参考訳）: ニューラルネットワークを理解することは、信頼性と信頼性の高いディープラーニングモデルを作成する上で不可欠である。解釈可能性に関する現代の研究は、因果的介入やアクティベーション分析を通じて、1回に1つのモデルだけを分析する。しかし、成功にもかかわらず、これらの手法は、ニューラルネットワークのトレーニング行動、内部表現の出現方法、モデルコンポーネントとタスク固有の振る舞いを予測的に関連付ける方法について、我々の理解に大きなギャップを残している。関連分野の作業からの新しい洞察を探るため、ここでは、パラメータをマージし、プロセス内のタスク固有のモデルコンポーネントを特定することで、さまざまなニューラルネットワークの能力を組み合わせることを目的とした、モデルマージ分野の文献を調査します。本研究では,損失景観幾何学のレンズを用いて,文献の融合を解析し,解釈可能性,セキュリティ,モデルマージ,損失景観解析に関する経験的研究から,ニューラルネットワークのトレーニングと内部表現の出現を制御した現象までを結合する手法を提案する。この領域の知識を体系化するために,本研究では,その中心となるアルゴリズム原理によって構成されたモデルマージ手法の新たな分類法を提案する。さらに,これらの分野の文献からの反復的な経験的観察を,モデム凸性,決定性,指向性,接続性という,損失景観幾何学の4つの主要な側面のキャラクタリゼーションに応用した。我々は、モデルマージと損失ランドスケープ幾何学の基礎となる原則の理解を深めることによって、この研究は、実践において安全で信頼性の高い機械学習を保証するという目標に寄与する、と論じる。

関連論文リスト

Evaluating Loss Landscapes from a Topology Perspective [43.25939653609482]
ロスランドスケープの基盤となる形状(あるいはトポロジ)を特徴付け、トポロジを定量化し、ニューラルネットワークに関する新たな洞察を明らかにする。その結果を機械学習(ML)の文献に関連付けるため,簡単なパフォーマンス指標を計算した。損失景観の形状を定量化することで、モデル性能と学習ダイナミクスに対する新たな洞察が得られることを示す。
論文参考訳（メタデータ） (2024-11-14T20:46:26Z)
Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。 3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文参考訳（メタデータ） (2024-10-31T22:54:34Z)
Dynamics of Meta-learning Representation in the Teacher-student Scenario [8.099691748821114]
グラディエントベースのメタ学習アルゴリズムは、限られたデータを使って新しいタスクでモデルをトレーニングできることで人気を集めている。本研究では,教師・学生シナリオにおけるストリーミングタスクを訓練した非線形2層ニューラルネットワークのメタラーニングダイナミクスについて検討する。
論文参考訳（メタデータ） (2024-08-22T16:59:32Z)
Automatic Discovery of Visual Circuits [66.99553804855931]
本稿では,視覚モデルにおける視覚的概念の認識の基盤となる計算グラフのサブグラフを抽出するスケーラブルな手法について検討する。提案手法は, モデル出力に因果的に影響を及ぼす回路を抽出し, これらの回路を編集することで, 敵攻撃から大きな事前学習モデルを守ることができることがわかった。
論文参考訳（メタデータ） (2024-04-22T17:00:57Z)
Studying the Impact of Latent Representations in Implicit Neural Networks for Scientific Continuous Field Reconstruction [8.94539107276733]
暗黙的ニューラルネットワークを用いたMMGN(Multiplicative and Modulated Gabor Network)と呼ばれる新しいモデルを提案する。我々は,従来の実験を補完する説明可能性手法を活用し,モデルが生成した潜在表現の理解を深めるための追加研究を設計する。
論文参考訳（メタデータ） (2024-04-09T16:07:35Z)
A singular Riemannian Geometry Approach to Deep Neural Networks III. Piecewise Differentiable Layers and Random Walks on $n$-dimensional Classes [49.32130498861987]
本稿ではReLUのような非微分可能活性化関数の事例について検討する。最近の2つの研究は、ニューラルネットワークを研究するための幾何学的枠組みを導入した。本稿では,画像の分類と熱力学問題に関する数値実験を行った。
論文参考訳（メタデータ） (2024-04-09T08:11:46Z)
Demolition and Reinforcement of Memories in Spin-Glass-like Neural Networks [0.0]
この論文の目的は、連想記憶モデルと生成モデルの両方において、アンラーニングの有効性を理解することである。構造化データの選択により、連想記憶モデルは、相当量のアトラクションを持つニューラルダイナミクスのアトラクションとしての概念を検索することができる。 Boltzmann Machinesの新しい正規化手法が提案され、データセットから隠れ確率分布を学習する以前に開発された手法より優れていることが証明された。
論文参考訳（メタデータ） (2024-03-04T23:12:42Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
Experimental Observations of the Topology of Convolutional Neural Network Activations [2.4235626091331737]
トポロジカル・データ解析は、複雑な構造のコンパクトでノイズ・ロバストな表現を提供する。ディープニューラルネットワーク(DNN)は、モデルアーキテクチャによって定義された一連の変換に関連する数百万のパラメータを学習する。本稿では,画像分類に使用される畳み込みニューラルネットワークの解釈可能性に関する知見を得る目的で,TDAの最先端技術を適用した。
論文参考訳（メタデータ） (2022-12-01T02:05:44Z)
Internal Representations of Vision Models Through the Lens of Frames on Data Manifolds [8.67467876089153]
多様体の接束上のフレームの概念から着想を得た、そのような表現を研究するための新しいアプローチを提案する。私たちの構成は、ニューラルネットワークフレームと呼ばれ、データポイントの特定の種類の摂動を表すベクトルの集合を組み立てることによって形成されます。ニューラルフレームを用いて、データポイントの小さな近傍でモデル、層間、特定の変動モードの処理方法について観察する。
論文参考訳（メタデータ） (2022-11-19T01:48:19Z)
The Neural Race Reduction: Dynamics of Abstraction in Gated Networks [12.130628846129973]
本稿では,情報フローの経路が学習力学に与える影響をスキーマ化するGated Deep Linear Networkフレームワークを紹介する。正確な還元と、特定の場合において、学習のダイナミクスに対する正確な解が導出されます。我々の研究は、ニューラルネットワークと学習に関する一般的な仮説を生み出し、より複雑なアーキテクチャの設計を理解するための数学的アプローチを提供する。
論文参考訳（メタデータ） (2022-07-21T12:01:03Z)
Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文参考訳（メタデータ） (2022-04-25T19:06:48Z)
Geometric and Topological Inference for Deep Representations of Complex Networks [13.173307471333619]
我々は、トポロジと表現の幾何学を強調する統計のクラスを提示する。モデル選択に使用する場合の感度と特異性の観点から,これらの統計値を評価する。これらの新しい手法により、脳やコンピューター科学者は、脳やモデルによって学習された動的表現変換を可視化することができる。
論文参考訳（メタデータ） (2022-03-10T17:14:14Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
Extracting Global Dynamics of Loss Landscape in Deep Learning Models [0.0]
本稿では,DOODL3 (Dynamical Organization of Deep Learning Loss Landscapes) のためのツールキットを提案する。 DOODL3は、ニューラルネットワークのトレーニングを動的システムとして定式化し、学習プロセスを分析し、損失ランドスケープにおける軌跡の解釈可能なグローバルビューを示す。
論文参考訳（メタデータ） (2021-06-14T18:07:05Z)
Fusing the Old with the New: Learning Relative Camera Pose with Geometry-Guided Uncertainty [91.0564497403256]
本稿では,ネットワークトレーニング中の2つの予測系間の確率的融合を含む新しい枠組みを提案する。本ネットワークは,異なる対応間の強い相互作用を強制することにより学習を駆動する自己追跡グラフニューラルネットワークを特徴とする。学習に適したモーションパーマリゼーションを提案し、難易度の高いDeMoNおよびScanNetデータセットで最新のパフォーマンスを達成できることを示します。
論文参考訳（メタデータ） (2021-04-16T17:59:06Z)
Explainable Adversarial Attacks in Deep Neural Networks Using Activation Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文参考訳（メタデータ） (2021-03-18T13:04:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。