論文の概要: Sparse autoencoders reveal selective remapping of visual concepts during adaptation
- arxiv url: http://arxiv.org/abs/2412.05276v1
- Date: Fri, 06 Dec 2024 18:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:07.314626
- Title: Sparse autoencoders reveal selective remapping of visual concepts during adaptation
- Title(参考訳): スパースオートエンコーダは適応中に視覚概念を選択的に再マッピングする
- Authors: Hyesu Lim, Jinho Choi, Jaegul Choo, Steffen Schneider,
- Abstract要約: 特定の目的のために基礎モデルを適用することは、機械学習システムを構築するための標準的なアプローチとなっている。
PatchSAEと呼ばれるCLIPビジョントランスのための新しいスパースオートエンコーダ(SAE)を開発し、解釈可能な概念を抽出する。
- 参考スコア(独自算出の注目度): 54.82630842681845
- License:
- Abstract: Adapting foundation models for specific purposes has become a standard approach to build machine learning systems for downstream applications. Yet, it is an open question which mechanisms take place during adaptation. Here we develop a new Sparse Autoencoder (SAE) for the CLIP vision transformer, named PatchSAE, to extract interpretable concepts at granular levels (e.g. shape, color, or semantics of an object) and their patch-wise spatial attributions. We explore how these concepts influence the model output in downstream image classification tasks and investigate how recent state-of-the-art prompt-based adaptation techniques change the association of model inputs to these concepts. While activations of concepts slightly change between adapted and non-adapted models, we find that the majority of gains on common adaptation tasks can be explained with the existing concepts already present in the non-adapted foundation model. This work provides a concrete framework to train and use SAEs for Vision Transformers and provides insights into explaining adaptation mechanisms.
- Abstract(参考訳): 特定の目的のために基礎モデルを適用することは、下流アプリケーションのための機械学習システムを構築するための標準的なアプローチとなっている。
しかし、どのメカニズムが適応中に起こるのかは明らかな問題である。
そこで我々は,CLIP視覚変換器PatchSAEのための新しいスパースオートエンコーダ(SAE)を開発し,粒度(例えば,物体の形状,色,意味)の解釈可能な概念とそのパッチワイド空間属性を抽出する。
これらの概念が下流画像分類タスクにおけるモデル出力にどのように影響するかを考察し、最近の最先端のプロンプトベース適応技術がモデル入力をこれらの概念に関連付けるかを検討する。
適応モデルと非適応モデルの間で概念のアクティベーションはわずかに変化するが、共通適応タスクにおけるゲインの大部分は、既に非適応基盤モデルに存在する既存の概念と説明できる。
この作業は、ビジョントランスフォーマーのためのSAEのトレーニングと使用のための具体的なフレームワークを提供し、適応メカニズムの説明に関する洞察を提供する。
関連論文リスト
- Concept Layers: Enhancing Interpretability and Intervenability via LLM Conceptualization [2.163881720692685]
本稿では,概念層をアーキテクチャに組み込むことにより,解釈可能性とインターベンタビリティを既存モデルに組み込む新しい手法を提案する。
我々のアプローチは、モデルの内部ベクトル表現を、再構成してモデルにフィードバックする前に、概念的で説明可能なベクトル空間に投影する。
複数のタスクにまたがるCLを評価し、本来のモデルの性能と合意を維持しつつ、意味のある介入を可能にしていることを示す。
論文 参考訳(メタデータ) (2025-02-19T11:10:19Z) - Analyzing Fine-tuning Representation Shift for Multimodal LLMs Steering alignment [53.90425382758605]
モデルの内部構造が微調整によってどのように変化し、新しいマルチモーダルタスクを専門化するかを示す。
我々の研究は、微調整によってマルチモーダル表現がどのように進化するかに光を当て、マルチモーダルタスクにおけるモデル適応を解釈するための新しい視点を提供する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - Emergence of Abstractions: Concept Encoding and Decoding Mechanism for In-Context Learning in Transformers [18.077009146950473]
自己回帰変換器は文脈内学習(ICL)を通して適応学習を示す
変換器の表現において内部抽象をどう形成し、どのように利用するかを研究することにより、ICLを説明するための符号化・復号機構を提案する。
私たちの経験的洞察は、その表現を通じて、大きな言語モデルの成功と失敗モードの理解を深めました。
論文 参考訳(メタデータ) (2024-12-16T19:00:18Z) - Enforcing Interpretability in Time Series Transformers: A Concept Bottleneck Framework [2.8470354623829577]
本研究では,時系列変換器の解釈可能性を実現するための概念ボトルネックモデルに基づくフレームワークを開発する。
我々は、事前定義された解釈可能な概念に似た表現を開発するようモデルに促すために、トレーニング対象を変更する。
モデルの性能はほとんど影響を受けていないが、モデルは解釈可能性を大幅に改善している。
論文 参考訳(メタデータ) (2024-10-08T14:22:40Z) - Improving the Explain-Any-Concept by Introducing Nonlinearity to the Trainable Surrogate Model [4.6040036610482655]
EAC(Explain Any Concept)モデルは、意思決定を説明するフレキシブルな方法です。
EACモデルは、ターゲットモデルをシミュレートする訓練可能な1つの線形層を持つ代理モデルを用いている。
元のサロゲートモデルに追加の非線形層を導入することで、ERCモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-20T07:25:09Z) - Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models [57.86303579812877]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念に基づいて、解釈可能なモデル決定を可能にする画像分類である。
既存のアプローチは、強いパフォーマンスを達成するために、画像ごとに多数の人間の介入を必要とすることが多い。
本稿では,概念関係を利用した学習型概念認識介入モジュールについて紹介する。
論文 参考訳(メタデータ) (2024-05-02T17:59:01Z) - Condition-Invariant Semantic Segmentation [77.10045325743644]
我々は現在最先端のドメイン適応アーキテクチャ上で条件不変セマンティック(CISS)を実装している。
本手法は,通常の都市景観$to$ACDCベンチマークにおいて,2番目に高い性能を実現する。
CISSはBDD100K-nightやACDC-nightのようなトレーニング中に見えない領域によく一般化している。
論文 参考訳(メタデータ) (2023-05-27T03:05:07Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - FLAT: Few-Shot Learning via Autoencoding Transformation Regularizers [67.46036826589467]
本稿では,データ例のラベルを使わずに,変換の分布によって引き起こされる特徴表現の変化を学習することで,新たな正規化機構を提案する。
エンコードされた特徴レベルで変換強化されたバリエーションを検査することで、ベースカテゴリへのオーバーフィットのリスクを最小限に抑えることができる。
実験結果から,文学における現在の最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2019-12-29T15:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。