Fugu-MT 論文翻訳(概要): Exploring Task Performance with Interpretable Models via Sparse Auto-Encoders

論文の概要: Exploring Task Performance with Interpretable Models via Sparse Auto-Encoders

arxiv url: http://arxiv.org/abs/2507.06427v1
Date: Tue, 08 Jul 2025 22:17:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-10 17:37:43.406056
Title: Exploring Task Performance with Interpretable Models via Sparse Auto-Encoders
Title（参考訳）: スパースオートエンコーダによる解釈可能なモデルによるタスクパフォーマンスの探索
Authors: Shun Wang, Tyler Loakman, Youbo Lei, Yi Liu, Bohao Yang, Yuting Zhao, Dong Yang, Chenghua Lin,
Abstract要約: 大規模言語モデル(LLM)は伝統的にブラックボックスアルゴリズムと見なされている。本研究では,スパースオートエンコーダを用いた辞書学習手法を用いて,効率的なLLM分解法を提案する。
参考スコア（独自算出の注目度）: 17.66934724195822
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Language Models (LLMs) are traditionally viewed as black-box algorithms, therefore reducing trustworthiness and obscuring potential approaches to increasing performance on downstream tasks. In this work, we apply an effective LLM decomposition method using a dictionary-learning approach with sparse autoencoders. This helps extract monosemantic features from polysemantic LLM neurons. Remarkably, our work identifies model-internal misunderstanding, allowing the automatic reformulation of the prompts with additional annotations to improve the interpretation by LLMs. Moreover, this approach demonstrates a significant performance improvement in downstream tasks, such as mathematical reasoning and metaphor detection.
Abstract（参考訳）: 大規模言語モデル(LLM)は伝統的にブラックボックスアルゴリズムと見なされるため、ダウンストリームタスクにおけるパフォーマンス向上に対する信頼性と潜在的なアプローチを損なう。本研究では,スパースオートエンコーダを用いた辞書学習手法を用いて,効率的なLLM分解法を提案する。これは多節性LLMニューロンから単節性の特徴を抽出するのに役立つ。注目すべきことに、本研究はモデル内部の誤解を識別し、追加アノテーションによるプロンプトの自動再構成を可能にし、LLMによる解釈を改善する。さらに、本手法は、数学的推論や比喩検出などの下流タスクにおいて、大幅な性能向上を示す。

関連論文リスト

Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-16T20:58:05Z)
Improving Reasoning Performance in Large Language Models via Representation Engineering [2.0099933815960256]
大規模言語モデル(LLM)の表現工学的アプローチを提案する。モデルアクティベーションは、推論タスクを処理する際にLLMの残ストリームから読み込まれる。 LLMは、ある程度に、アクティベーションを調節することで、認識された推論能力を向上させることができることを示す。
論文参考訳（メタデータ） (2025-04-28T04:58:43Z)
Enhancing Semantic Consistency of Large Language Models through Model Editing: An Interpretability-Oriented Approach [28.07366458452159]
大規模言語モデル(LLM)は、等価な意味を持つプロンプトが提示されるが、元のプロンプトとは異なる形で表現されるとき、矛盾する出力を生成する。 LLMのセマンティック一貫性を達成するために、重要なアプローチの1つは、セマンティックに等価な意味を持つプロンプトとアウトプットのペアでモデルを微調整することである。 LLMのセマンティック一貫性を高めるために,より解釈可能な手法(モデル編集)を提案する。
論文参考訳（メタデータ） (2025-01-19T13:26:15Z)
LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文参考訳（メタデータ） (2025-01-19T13:06:51Z)
Multi-Objective Large Language Model Unlearning [3.372396620898397]
グラディエント・アセント(GA)は、対象データ上のモデルの予測確率を減少させるプロアクティブな方法である。本稿では,多目的大規模言語モデル学習(MOLLM)アルゴリズムを提案する。実験の結果,MLLM が SOTA GA をベースとした LLM アンラーニング法よりも非ラーニング効果とモデルユーティリティ保存の点で優れていたことが確認された。
論文参考訳（メタデータ） (2024-12-29T09:35:56Z)
Rethinking Semantic Parsing for Large Language Models: Enhancing LLM Performance with Semantic Hints [20.844061807562436]
本稿では,意味的ヒントをプロンプト内に埋め込む新しいプロンプト手法であるSENSEを提案する。実験の結果、SENSE は様々なタスクで LLM のパフォーマンスを継続的に改善していることがわかった。
論文参考訳（メタデータ） (2024-09-22T14:35:09Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。 DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文参考訳（メタデータ） (2024-06-07T19:38:05Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
Evaluating and Explaining Large Language Models for Code Using Syntactic Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文参考訳（メタデータ） (2023-08-07T18:50:57Z)
Investigating Methods to Improve Language Model Integration for Attention-based Encoder-Decoder ASR Models [107.86965028729517]
注意ベースのエンコーダデコーダ(AED)モデルは、トレーニング転写から暗黙的な内部言語モデル(ILM)を学ぶ。 AEDモデルから直接ILMを推定する新しい手法をいくつか提案する。
論文参考訳（メタデータ） (2021-04-12T15:16:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。