論文の概要: DB-KSVD: Scalable Alternating Optimization for Disentangling High-Dimensional Embedding Spaces
- arxiv url: http://arxiv.org/abs/2505.18441v1
- Date: Sat, 24 May 2025 00:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.424297
- Title: DB-KSVD: Scalable Alternating Optimization for Disentangling High-Dimensional Embedding Spaces
- Title(参考訳): DB-KSVD:高次元埋め込み空間のスケーラブル交互最適化
- Authors: Romeo Valentin, Sydney M. Katz, Vincent Vanhoucke, Mykel J. Kochenderfer,
- Abstract要約: 古典的なKSVDアルゴリズムに適応するスケーラブルな辞書学習アルゴリズムを提案する。
DB-KSVDはKSVDの豊富な理論的基礎から情報を得ているが、数百万のサンプルと数千の次元を持つデータセットにスケールする。
- 参考スコア(独自算出の注目度): 37.53904858879538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dictionary learning has recently emerged as a promising approach for mechanistic interpretability of large transformer models. Disentangling high-dimensional transformer embeddings, however, requires algorithms that scale to high-dimensional data with large sample sizes. Recent work has explored sparse autoencoders (SAEs) for this problem. However, SAEs use a simple linear encoder to solve the sparse encoding subproblem, which is known to be NP-hard. It is therefore interesting to understand whether this structure is sufficient to find good solutions to the dictionary learning problem or if a more sophisticated algorithm could find better solutions. In this work, we propose Double-Batch KSVD (DB-KSVD), a scalable dictionary learning algorithm that adapts the classic KSVD algorithm. DB-KSVD is informed by the rich theoretical foundations of KSVD but scales to datasets with millions of samples and thousands of dimensions. We demonstrate the efficacy of DB-KSVD by disentangling embeddings of the Gemma-2-2B model and evaluating on six metrics from the SAEBench benchmark, where we achieve competitive results when compared to established approaches based on SAEs. By matching SAE performance with an entirely different optimization approach, our results suggest that (i) SAEs do find strong solutions to the dictionary learning problem and (ii) that traditional optimization approaches can be scaled to the required problem sizes, offering a promising avenue for further research. We provide an implementation of DB-KSVD at https://github.com/RomeoV/KSVD.jl.
- Abstract(参考訳): 辞書学習は近年,大規模変圧器モデルの機械論的解釈可能性に対する有望なアプローチとして出現している。
しかし、高次元変換器の埋め込みを遠ざけるには、大規模なサンプルサイズで高次元データにスケールするアルゴリズムが必要である。
最近の研究は、この問題に対するスパースオートエンコーダ(SAE)を探索している。
しかし、SAEは単純な線形エンコーダを使用して、NPハードとして知られるサブプロブレムをスパース符号化する。
したがって、この構造が辞書学習問題に対する優れた解を見つけるのに十分かどうか、あるいはより洗練されたアルゴリズムがより良い解を見つけることができるかどうかを理解することは興味深い。
本研究では,従来のKSVDアルゴリズムに適応した拡張性のある辞書学習アルゴリズムであるDouble-Batch KSVD(DB-KSVD)を提案する。
DB-KSVDはKSVDの豊富な理論的基礎から情報を得ているが、数百万のサンプルと数千の次元を持つデータセットにスケールする。
Gemma-2-2Bモデルの埋め込みを解消し,SAEBenchベンチマークから6つの指標を用いてDB-KSVDの有効性を示す。
SAE性能を全く異なる最適化アプローチと組み合わせることで,本研究の結果が示唆される。
(i)SAEは辞書学習問題に対する強力な解決策を見出す。
(II) 従来の最適化アプローチは必要な問題の大きさまで拡張可能であり、さらなる研究に有望な道筋を提供する。
https://github.com/RomeoV/KSVD.jlでDB-KSVDの実装を提供する。
関連論文リスト
- AdaSVD: Adaptive Singular Value Decomposition for Large Language Models [84.60646883395454]
Singular Value Decomposition (SVD) は,大規模言語モデル(LLM)の有望な圧縮手法として登場した。
既存のSVDベースの手法は、SVDトランケーションによって引き起こされるエラーを効果的に軽減するために苦労することが多い。
適応SVDに基づくLLM圧縮手法であるAdaSVDを提案する。
論文 参考訳(メタデータ) (2025-02-03T14:34:37Z) - Sparsity-Constraint Optimization via Splicing Iteration [1.3622424109977902]
我々は sPlicing itEration (SCOPE) を用いたスペーサリティ制約最適化アルゴリズムを開発した。
SCOPEはパラメータをチューニングせずに効率的に収束する。
SCOPEを用いて2次最適化を解き、スパース分類器を学習し、バイナリ変数のスパースマルコフネットワークを復元する。
C++実装に基づいたオープンソースのPythonパッケージskscopeがGitHubで公開されている。
論文 参考訳(メタデータ) (2024-06-17T18:34:51Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - An Efficient Approximate Method for Online Convolutional Dictionary
Learning [32.90534837348151]
トレーニングサンプルのスパース分解を取り入れた新しい近似OCDL法を提案する。
提案手法は,最先端のOCDLアルゴリズムの有効性を保ちながら,計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2023-01-25T13:40:18Z) - Optimizing Binary Decision Diagrams with MaxSAT for classification [3.2894524838755608]
説明可能な人工知能への関心の高まりは、解釈可能な機械学習(ML)モデルの必要性を動機付けている。
近年、従来の手法の弱点を克服するために、そのようなモデルを計算するためのいくつかの正確な方法が提案されている。
本稿ではまず,最適なバイナリ決定図(BDD)を学習するためのSATモデルを提案する。
次に、符号化をMaxSATモデルに上げ、限られた深さで最適なBDDを学習します。
最後に、MaxSATモデルを介して見つけたBDDの互換性のあるサブツリーをマージする手法を導入することにより、フラグメンテーションの問題に取り組む。
論文 参考訳(メタデータ) (2022-03-21T23:17:37Z) - High-Dimensional Sparse Bayesian Learning without Covariance Matrices [66.60078365202867]
共分散行列の明示的な構成を避ける新しい推論手法を提案する。
本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。
いくつかのシミュレーションにおいて,本手法は計算時間とメモリにおける既存手法よりも拡張性が高い。
論文 参考訳(メタデータ) (2022-02-25T16:35:26Z) - ES-Based Jacobian Enables Faster Bilevel Optimization [53.675623215542515]
バイレベル最適化(BO)は多くの現代の機械学習問題を解決する強力なツールとして生まれてきた。
既存の勾配法では、ヤコビアンあるいはヘッセンベクトル計算による二階微分近似が必要となる。
本稿では,進化戦略(ES)に基づく新しいBOアルゴリズムを提案し,BOの過勾配における応答ヤコビ行列を近似する。
論文 参考訳(メタデータ) (2021-10-13T19:36:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。