論文の概要: Interpret the Internal States of Recommendation Model with Sparse Autoencoder
- arxiv url: http://arxiv.org/abs/2411.06112v2
- Date: Mon, 14 Jul 2025 09:07:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 14:36:06.713562
- Title: Interpret the Internal States of Recommendation Model with Sparse Autoencoder
- Title(参考訳): スパースオートエンコーダを用いた勧告モデルの内部状態の解釈
- Authors: Jiayin Wang, Xiaoyu Zhang, Weizhi Ma, Zhiqiang Guo, Min Zhang,
- Abstract要約: RecSAEは、Sparse AutoEncoderでRecommendersを解釈する自動化され、一般化可能なプローブフレームワークである。
これはレコメンデーションモデルの内部状態から解釈可能なラテントを抽出し、解釈のセマンティックな概念にリンクする。
RecSAEは解釈中にオリジナルのモデルを変更せず、解釈結果に基づいたモデルへのターゲットのデバイアスを可能にする。
- 参考スコア(独自算出の注目度): 28.234859617081295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommendation model interpretation aims to reveal models' calculation process, enhancing their transparency, interpretability, and trustworthiness by clarifying the relationships between inputs, model activations, and outputs. However, the complex, often opaque nature of deep learning models complicates interpretation, and most existing methods are tailored to specific model architectures, limiting their generalizability across different types of recommendation models. To address these challenges, we propose RecSAE, an automated and generalizable probing framework that interprets Recommenders with Sparse AutoEncoder. It extracts interpretable latents from the internal states of recommendation models and links them to semantic concepts for interpretation. RecSAE does not alter original models during interpretation and also enables targeted de-biasing to models based on interpreted results. Specifically, RecSAE operates in three steps: First, it probes activations before the prediction layer to capture internal representations. Next, the RecSAE module is trained on these activations with a larger latent space and sparsity constraints, making the RecSAE latents more mono-semantic than the original model activations. Thirdly, RecSAE utilizes a language model to construct concept descriptions with confidence scores based on the relationships between latent activations and recommendation outputs. Experiments on three types of models (general, graph-based, and sequential) with three widely used datasets demonstrate the effectiveness and generalization of RecSAE framework. The interpreted concepts are further validated by human experts, showing strong alignment with human perception. Overall, RecSAE serves as a novel step in both model-level interpretations to various types of recommenders without affecting their functions and offering the potential for targeted tuning of models.
- Abstract(参考訳): 推奨モデル解釈は、入力、モデルアクティベーション、出力の関係を明確にすることで、モデルの計算プロセスを明らかにし、その透明性、解釈可能性、信頼性を高めることを目的としている。
しかし、ディープラーニングモデルの複雑で不透明な性質は解釈を複雑にし、既存のほとんどのメソッドは特定のモデルアーキテクチャに合わせており、様々なタイプのレコメンデーションモデルにまたがる一般化性を制限する。
これらの課題に対処するため、Sparse AutoEncoderでRecommendersを解釈する自動化および一般化可能なプローブフレームワークであるRecSAEを提案する。
これはレコメンデーションモデルの内部状態から解釈可能なラテントを抽出し、解釈のセマンティックな概念にリンクする。
RecSAEは解釈中にオリジナルのモデルを変更せず、解釈結果に基づいたモデルへのターゲットのデバイアスを可能にする。
まず、内部表現をキャプチャするために、予測層の前にアクティベーションをプローブする。
次に、RecSAEモジュールは、これらのアクティベーションを、より大きな潜在空間とスパーシティ制約でトレーニングし、RecSAE潜伏モジュールは元のモデルアクティベーションよりも単意味になる。
第3に、RecSAEは言語モデルを用いて、潜在アクティベーションとレコメンデーションアウトプットの関係に基づいて、信頼スコアを持つ概念記述を構築する。
広く使われている3つのデータセットを用いた3種類のモデル(一般、グラフベース、シーケンシャル)の実験は、RecSAEフレームワークの有効性と一般化を示している。
解釈された概念は人間の専門家によってさらに検証され、人間の知覚と強く一致している。
全体として、RecSAEは様々な種類のレコメンデータに対するモデルレベルの解釈において、その機能に影響を与えることなく新しいステップとして機能し、モデルのターゲットチューニングの可能性を秘めている。
関連論文リスト
- LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - Constructing Concept-based Models to Mitigate Spurious Correlations with Minimal Human Effort [31.992947353231564]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、人間の理解可能な概念を通じて、モデルの振る舞いを開示し、導くための原則的な方法を提供する。
本稿では,これらのバイアスに無害でありながら事前学習モデルを活用するために設計された新しいフレームワークを提案する。
提案手法を複数のデータセット上で評価し,その解釈可能性を維持しつつ,素粒子相関によるモデル依存の低減効果を示した。
論文 参考訳(メタデータ) (2024-07-12T03:07:28Z) - Self-supervised Interpretable Concept-based Models for Text Classification [9.340843984411137]
本稿では,自己教師型解釈可能な概念埋め込みモデル(ICEM)を提案する。
我々は,大規模言語モデルの一般化能力を活用し,概念ラベルを自己管理的に予測する。
ICEMは、完全に教師されたコンセプトベースモデルやエンドツーエンドのブラックボックスモデルと同じようなパフォーマンスを達成するために、自己管理的な方法でトレーニングすることができる。
論文 参考訳(メタデータ) (2024-06-20T14:04:53Z) - Understanding Before Recommendation: Semantic Aspect-Aware Review Exploitation via Large Language Models [53.337728969143086]
レコメンデーションシステムは、クリックやレビューのようなユーザとイテムのインタラクションを利用して表現を学習する。
従来の研究では、様々な側面や意図にまたがるユーザの嗜好をモデル化することで、推奨精度と解釈可能性を改善する。
そこで本研究では,意味的側面と認識的相互作用を明らかにするためのチェーンベースのプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T15:44:09Z) - RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。
本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。
効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - Interpreting and Controlling Vision Foundation Models via Text
Explanations [45.30541722925515]
本稿では,視覚変換器の潜在トークンを自然言語で解釈するフレームワークを提案する。
我々のアプローチは、追加のモデルトレーニングやデータ収集を必要とせずに、モデルの視覚的推論手順の理解を可能にする。
論文 参考訳(メタデータ) (2023-10-16T17:12:06Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Interpretable Sentence Representation with Variational Autoencoders and
Attention [0.685316573653194]
自然言語処理(NLP)における近年の表現学習技術の解釈可能性を高める手法を開発した。
変動オートエンコーダ (VAEs) は, 遅延生成因子の観測に有効である。
帰納的バイアスを持つ2つのモデルを構築し、潜在表現の情報を注釈付きデータなしで理解可能な概念に分離する。
論文 参考訳(メタデータ) (2023-05-04T13:16:15Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - ProtoVAE: A Trustworthy Self-Explainable Prototypical Variational Model [18.537838366377915]
ProtoVAEは、クラス固有のプロトタイプをエンドツーエンドで学習する変分自動エンコーダベースのフレームワークである。
表現空間を正規化し、正則性制約を導入することにより、信頼性と多様性を強制する。
論文 参考訳(メタデータ) (2022-10-15T00:42:13Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Combining Discrete Choice Models and Neural Networks through Embeddings:
Formulation, Interpretability and Performance [10.57079240576682]
本研究では、ニューラルネットワーク(ANN)を用いた理論とデータ駆動選択モデルを組み合わせた新しいアプローチを提案する。
特に、分類的または離散的説明変数を符号化するために、埋め込みと呼ばれる連続ベクトル表現を用いる。
我々のモデルは最先端の予測性能を提供し、既存のANNモデルよりも優れ、必要なネットワークパラメータの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-09-24T15:55:31Z) - InteL-VAEs: Adding Inductive Biases to Variational Auto-Encoders via
Intermediary Latents [60.785317191131284]
本稿では,潜伏変数の中間集合を用いて,制御可能なバイアスでVAEを学習するための簡易かつ効果的な手法を提案する。
特に、学習した表現に対して、スパーシリティやクラスタリングといった望ましいプロパティを課すことができます。
これにより、InteL-VAEはより優れた生成モデルと表現の両方を学ぶことができる。
論文 参考訳(メタデータ) (2021-06-25T16:34:05Z) - Model Learning with Personalized Interpretability Estimation (ML-PIE) [2.862606936691229]
ハイステークアプリケーションは、AI生成モデルを解釈可能にする必要がある。
解釈可能なモデルの合成のための現在のアルゴリズムは、目的や正規化項に依存する。
本稿では,ユーザ向けにカスタマイズされたモデルの合成手法を提案する。
論文 参考訳(メタデータ) (2021-04-13T09:47:48Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。