論文の概要: Teach Old SAEs New Domain Tricks with Boosting
- arxiv url: http://arxiv.org/abs/2507.12990v1
- Date: Thu, 17 Jul 2025 10:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.462176
- Title: Teach Old SAEs New Domain Tricks with Boosting
- Title(参考訳): 旧SAEの新たなドメイントリック、強化で改善
- Authors: Nikita Koriagin, Yaroslav Aksenov, Daniil Laptev, Gleb Gerasimov, Nikita Balagansky, Daniil Gavrilov,
- Abstract要約: 本稿では,完全再訓練を必要とせず,この特徴の盲点に対処する残差学習手法を提案する。
本研究では,ドメイン固有のテキストに基づいて,事前訓練されたSAEの再構成誤りをモデル化するための二次SAEのトレーニングを提案する。
推論中の両モデルの出力を要約することにより、LLMのクロスエントロピーと説明分散メトリクスの双方において、大幅な改善を示す。
- 参考スコア(独自算出の注目度): 3.3865605512957453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders have emerged as powerful tools for interpreting the internal representations of Large Language Models, yet they often fail to capture domain-specific features not prevalent in their training corpora. This paper introduces a residual learning approach that addresses this feature blindness without requiring complete retraining. We propose training a secondary SAE specifically to model the reconstruction error of a pretrained SAE on domain-specific texts, effectively capturing features missed by the primary model. By summing the outputs of both models during inference, we demonstrate significant improvements in both LLM cross-entropy and explained variance metrics across multiple specialized domains. Our experiments show that this method efficiently incorporates new domain knowledge into existing SAEs while maintaining their performance on general tasks. This approach enables researchers to selectively enhance SAE interpretability for specific domains of interest, opening new possibilities for targeted mechanistic interpretability of LLMs.
- Abstract(参考訳): スパースオートエンコーダは、大規模言語モデルの内部表現を解釈するための強力なツールとして登場したが、トレーニングコーパスであまり普及していないドメイン固有の特徴をキャプチャするのに失敗することが多い。
本稿では,完全再訓練を必要とせず,この特徴の盲点に対処する残差学習手法を提案する。
本研究では、ドメイン固有テキスト上で事前訓練されたSAEの再構成誤りをモデル化するための二次SAEのトレーニングを提案し、一次モデルで欠落した特徴を効果的に捉えた。
推論中の両モデルの出力を要約することにより、LLMのクロスエントロピーと、複数の専門領域にわたる分散メトリクスの双方において、大幅な改善が示される。
実験の結果,本手法は既存のSAEに新たなドメイン知識を効率よく組み込むとともに,一般的なタスクにおける性能を維持できることがわかった。
このアプローチにより、研究者は特定の関心領域に対するSAE解釈可能性を選択的に向上することができ、LLMの標的機械的解釈可能性に対する新たな可能性を開くことができる。
関連論文リスト
- Addressing Imbalanced Domain-Incremental Learning through Dual-Balance Collaborative Experts [59.615381619866284]
ドメイン・インクリメンタル・ラーニング(Domain-Incremental Learning, DIL)は、非定常環境における連続的な学習に焦点を当てる。
DILは、ドメイン内のクラス不均衡とドメイン間のクラス分散シフトという、2つの重要な課題に直面している。
これらの課題を克服するために、Dual-Balance Collaborative Experts (DCE)フレームワークを紹介します。
論文 参考訳(メタデータ) (2025-07-09T17:57:07Z) - CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。
CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。
CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文 参考訳(メタデータ) (2025-05-01T08:27:14Z) - Adapting In-Domain Few-Shot Segmentation to New Domains without Retraining [53.963279865355105]
クロスドメイン小ショットセグメンテーション(CD-FSS)は、新しいドメインで新しいクラスのオブジェクトをセグメンテーションすることを目的としている。
多くのCD-FSSメソッドは、様々なドメイン一般化手法を用いて、ドメイン内FSSモデルを再設計し、再訓練する。
そこで,本研究では,FSSモデルを対象ドメインに適応させ,少数ショットラベル付きサポートサンプルからドメイン特性を学習する手法を提案する。
論文 参考訳(メタデータ) (2025-04-30T08:16:33Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Retaining and Enhancing Pre-trained Knowledge in Vision-Language Models with Prompt Ensembling [5.6987175375687995]
グループワイド・プロンプト・アンサンブル(GPE)と呼ばれる新しいプロンプト・アンサンブル学習手法を提案する。
提案手法は,データ分散シフトに対するロバスト性を改善しつつ,新たなドメイン知識を取り入れたCLIPのゼロショット機能の向上を目的としている。
当社のアプローチは,ゼロショット能力を保護しながら,CLIPの適応性を最適化するため,マスク付き注意によるグループ化の促進,モデルの表現を損なうことなく,新たなドメインインサイトをシームレスに統合するための補助的なプロンプトの導入,オリジナルと新しい知識を効果的にマージするアンサンブル学習戦略の3つの戦略に基づいている。
論文 参考訳(メタデータ) (2024-12-10T00:40:31Z) - Unveiling the Vulnerability of Private Fine-Tuning in Split-Based Frameworks for Large Language Models: A Bidirectionally Enhanced Attack [20.727726850786386]
BiSRは、スプリットラーニング(SL)の前方および後方伝播プロセスの両方をターゲットにした最初のデータ再構成攻撃である。
SLの前方および後方伝播過程を標的とした最初のデータ再構成攻撃(DRA)であるBiSRを提案する。
論文 参考訳(メタデータ) (2024-09-02T06:01:20Z) - Investigating Continual Pretraining in Large Language Models: Insights and Implications [9.660013084324817]
大規模言語モデル(LLM)における継続的な学習は、効率的で持続可能なトレーニング戦略の開発に焦点を当てた進化途上のドメインである。
我々は,LLMの事前学習データランドスケープの変化に対する適応性を測定するために,新しいベンチマークを導入する。
i) 継続事前学習は、この研究で研究された1.5Bモデルを継続的に改善し、ドメイン適応よりも優れていること、(ii) より大きなモデルは、同じコーパス上で継続的に事前訓練された場合、より小さなモデルよりもずっと複雑であること、(iii) より小さなモデルは、特に連続事前訓練に敏感であること、そして、学習と学習の双方において最も有意な割合を示すこと、など、いくつかの重要な知見が明らかになった。
論文 参考訳(メタデータ) (2024-02-27T10:47:24Z) - FusDom: Combining In-Domain and Out-of-Domain Knowledge for Continuous
Self-Supervised Learning [54.9235160379917]
FusDomはSSLベースの継続事前トレーニングのためのシンプルで斬新な方法論である。
FusDomは、過去に見られる概念を忘れずに頑健で適応的な表現を学ぶ。
論文 参考訳(メタデータ) (2023-12-20T13:50:05Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。