論文の概要: Atlas-Alignment: Making Interpretability Transferable Across Language Models
- arxiv url: http://arxiv.org/abs/2510.27413v1
- Date: Fri, 31 Oct 2025 12:02:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.093932
- Title: Atlas-Alignment: Making Interpretability Transferable Across Language Models
- Title(参考訳): Atlas-Alignment: 言語モデル間の解釈可能性伝達を可能にする
- Authors: Bruno Puri, Jim Berend, Sebastian Lapuschkin, Wojciech Samek,
- Abstract要約: 安全で信頼性があり、制御可能な言語モデルを構築するためには、解釈可能性が非常に重要です。
我々はAtlas-Alignmentを紹介した。Atlas-Alignmentは言語モデル間での解釈可能性の伝達のためのフレームワークである。
単純な表現アライメント手法により,ロバストなセマンティック検索とステアブル生成が可能となることを示す。
- 参考スコア(独自算出の注目度): 21.742750382022226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpretability is crucial for building safe, reliable, and controllable language models, yet existing interpretability pipelines remain costly and difficult to scale. Interpreting a new model typically requires costly training of model-specific sparse autoencoders, manual or semi-automated labeling of SAE components, and their subsequent validation. We introduce Atlas-Alignment, a framework for transferring interpretability across language models by aligning unknown latent spaces to a Concept Atlas - a labeled, human-interpretable latent space - using only shared inputs and lightweight representational alignment techniques. Once aligned, this enables two key capabilities in previously opaque models: (1) semantic feature search and retrieval, and (2) steering generation along human-interpretable atlas concepts. Through quantitative and qualitative evaluations, we show that simple representational alignment methods enable robust semantic retrieval and steerable generation without the need for labeled concept data. Atlas-Alignment thus amortizes the cost of explainable AI and mechanistic interpretability: by investing in one high-quality Concept Atlas, we can make many new models transparent and controllable at minimal marginal cost.
- Abstract(参考訳): 安全で信頼性があり、制御可能な言語モデルを構築する上で、解釈可能性は非常に重要ですが、既存の解釈可能性パイプラインはコストがかかり、スケールが難しいままです。
新しいモデルを解釈するには、モデル固有のスパースオートエンコーダの高価なトレーニング、SAEコンポーネントのマニュアルまたは半自動ラベリング、およびその後の検証が必要である。
我々はAtlas-Alignmentを紹介した。これは未知の潜在空間を共有入力と軽量な表現アライメント技術を用いて、ラベル付き人間解釈可能な潜在空間であるConcept Atlasに整列させることにより、言語モデル間での解釈可能性の伝達を行うフレームワークである。
ひとたび整列すれば,(1)意味的特徴探索と検索,(2)人間の解釈可能なアトラス概念に沿ったステアリング生成という,従来不透明なモデルにおける2つの重要な機能を実現することができる。
定量的および定性的な評価を通じて、単純な表現アライメント手法により、ラベル付き概念データを必要としないロバストなセマンティック検索とステアブル生成が可能となることを示す。
そのため、Atlas-Alignmentは、説明可能なAIと機械的解釈のコストを減らし、高品質のConcept Atlasに投資することで、最小限の限界コストで多くの新しいモデルを透過的かつ制御可能にすることができます。
関連論文リスト
- Forgetting: A New Mechanism Towards Better Large Language Model Fine-tuning [51.92313556418432]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) において重要な役割を果たす。
各コーパス内のトークンを、モデルパフォーマンスを改善するのに有用かどうかに基づいて、正と負の2つの部分に分類することを提案する。
我々は、よく確立されたベンチマークで実験を行い、この忘れるメカニズムが全体のモデル性能を向上するだけでなく、より多様なモデル応答を促進することを発見した。
論文 参考訳(メタデータ) (2025-08-06T11:22:23Z) - Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。
近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。
そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文 参考訳(メタデータ) (2025-07-30T20:06:01Z) - Omni TM-AE: A Scalable and Interpretable Embedding Model Using the Full Tsetlin Machine State Space [14.150011713654331]
Omni Tsetlin Machine AutoEncoder (Omni TM-AE) は、TMの状態行列に含まれる情報を利用する新しい埋め込みモデルである。
セマンティック類似性、感情分類、文書クラスタリングタスクの広範な実験は、Omni TM-AEが主流の埋め込みモデルと競合し、しばしば越すことを示す。
論文 参考訳(メタデータ) (2025-05-22T08:38:05Z) - Towards Automated Semantic Interpretability in Reinforcement Learning via Vision-Language Models [1.8032335403003321]
自動概念抽出(iTRACE)による解釈可能な木に基づく強化学習を導入する。
iTRACEは、セマンティックな特徴抽出のための事前学習された視覚言語モデル(VLM)と、ポリシー最適化のための解釈可能なツリーベースモデルを使用する。
iTRACEは、同じ解釈可能な機能を使用してベースラインを上回り、CNNベースのポリシーのパフォーマンスにマッチする。
論文 参考訳(メタデータ) (2025-03-20T21:53:19Z) - Interpret the Internal States of Recommendation Model with Sparse Autoencoder [28.234859617081295]
RecSAEは、Sparse AutoEncoderでRecommendersを解釈する自動化され、一般化可能なプローブフレームワークである。
これはレコメンデーションモデルの内部状態から解釈可能なラテントを抽出し、解釈のセマンティックな概念にリンクする。
RecSAEは解釈中にオリジナルのモデルを変更せず、解釈結果に基づいたモデルへのターゲットのデバイアスを可能にする。
論文 参考訳(メタデータ) (2024-11-09T08:22:31Z) - LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。
われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文 参考訳(メタデータ) (2024-05-29T00:36:56Z) - One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。
本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。
2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-11-29T16:23:06Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。