Fugu-MT 論文翻訳(概要): Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models

論文の概要: Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models

arxiv url: http://arxiv.org/abs/2408.00113v1
Date: Wed, 31 Jul 2024 18:45:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-04 22:36:04.160352
Title: Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models
Title（参考訳）: ボードゲームモデルを用いた言語モデル解釈可能性のための辞書学習の進歩度測定
Authors: Adam Karvonen, Benjamin Wright, Can Rager, Rico Angell, Jannik Brinkmann, Logan Smith, Claudio Mayrink Verdun, David Bau, Samuel Marks,
Abstract要約: 本稿では,チェスやオセロ文字で訓練されたLMの設定を用いて,解釈可能な辞書学習の進展を測定することを提案する。新しいSAEトレーニングテクニックである$textitp-annealing$を導入しました。
参考スコア（独自算出の注目度）: 18.77400885091398
License: http://creativecommons.org/licenses/by/4.0/
Abstract: What latent features are encoded in language model (LM) representations? Recent work on training sparse autoencoders (SAEs) to disentangle interpretable features in LM representations has shown significant promise. However, evaluating the quality of these SAEs is difficult because we lack a ground-truth collection of interpretable features that we expect good SAEs to recover. We thus propose to measure progress in interpretable dictionary learning by working in the setting of LMs trained on chess and Othello transcripts. These settings carry natural collections of interpretable features -- for example, "there is a knight on F3" -- which we leverage into $\textit{supervised}$ metrics for SAE quality. To guide progress in interpretable dictionary learning, we introduce a new SAE training technique, $\textit{p-annealing}$, which improves performance on prior unsupervised metrics as well as our new metrics.
Abstract（参考訳）: 言語モデル(LM)では、どの潜在機能がエンコードされているか? 近年,Sparse Autoencoder (SAEs) を訓練して,LM表現の解釈可能な特徴を分解する研究が盛んに行われている。しかし,これらのSAEの質を評価することは困難である。そこで本研究では,チェスやオセロの書き起こしを訓練したLMの設定を用いて,解釈可能な辞書学習の進展を測定することを提案する。これらの設定は、解釈可能な機能の自然なコレクション -- 例えば、"F3にはナイトがあります" -- を持ち、SAE品質のための$\textit{supervised}$メトリックに活用します。解釈可能な辞書学習の進歩を導くため,新しいSAEトレーニング手法である$\textit{p-annealing}$を導入する。

関連論文リスト

Empirical Evaluation of Progressive Coding for Sparse Autoencoders [45.94517951918044]
バニラSAEにおける辞書の重要性は権力法に従っていることを示す。 SAEは再建損失が低く,言語モデリング損失が回復したことを示す。
論文参考訳（メタデータ） (2025-04-30T21:08:32Z)
Interpreting and Steering LLMs with Mutual Information-based Explanations on Sparse Autoencoders [29.356200147371275]
大きな言語モデル(LLM)は人間のクエリを扱うのに優れていますが、時に欠陥や予期せぬ応答を生成することができます。特徴解釈と相互情報に基づく目的設計のための固定語彙集合を提案する。そこで本研究では,学習した機能アクティベーションを,対応する説明に基づいて調整する2つの実行時ステアリング戦略を提案する。
論文参考訳（メタデータ） (2025-02-21T16:36:42Z)
Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders [8.003244901104111]
類似した特徴を学習するために、並列訓練されたSAEを奨励し、特徴学習を改善するための正規化手法を提案する。 textscMFRは、GPT-2 Smallで最大21.21%、EEGデータで6.67%のSAEの再構築損失を改善することができる。
論文参考訳（メタデータ） (2024-11-02T11:42:23Z)
Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文参考訳（メタデータ） (2024-10-27T17:33:49Z)
A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-16T17:19:06Z)
Towards Principled Evaluations of Sparse Autoencoders for Interpretability and Control [43.860799289234755]
本稿では,特定のタスクの文脈における特徴辞書を評価するためのフレームワークを提案する。まず,教師付き辞書は,タスクにおけるモデル計算の近似,制御,解釈性に優れることを示す。 GPT-2 Small を用いた間接オブジェクト識別(IOI)タスクに適用し,IOI や OpenWebText のデータセットで訓練したスパースオートエンコーダ (SAE) を用いた。
論文参考訳（メタデータ） (2024-05-14T07:07:13Z)
CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文参考訳（メタデータ） (2023-10-24T08:56:49Z)
Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文参考訳（メタデータ） (2023-05-09T11:00:02Z)
ParroT: Translating during Chat using Large Language Models tuned with Human Translation and Feedback [90.20262941911027]
ParroTはチャット中の翻訳機能を強化し、規制するフレームワークである。具体的には、ParroTは、翻訳データを命令フォロースタイルに書き換える。本稿では,ParroTモデルを微調整するための3つの命令タイプを提案する。
論文参考訳（メタデータ） (2023-04-05T13:12:00Z)
Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文参考訳（メタデータ） (2023-02-15T18:25:52Z)
Memory Augmented Lookup Dictionary based Language Modeling for Automatic Speech Recognition [20.926163659469587]
LMのための新しいメモリ拡張ルックアップ辞書に基づくトランスフォーマーアーキテクチャを提案する。新しく導入されたルックアップ辞書は、トレーニングセットにリッチなコンテキスト情報を組み込んでおり、ロングテールトークンを正確に予測するのに不可欠である。提案手法は,ワード/文字誤り率とテールトークン誤り率の両方に大きな差で,ベースライントランスフォーマーLMより優れていることを示す。
論文参考訳（メタデータ） (2022-12-30T22:26:57Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
An Interpretability Evaluation Benchmark for Pre-trained Language Models [37.16893581395874]
英語と中国語の両方の注釈付きデータを提供する新しい評価ベンチマークを提案する。複数の次元(文法、意味論、知識、推論、計算など)でLMの能力をテストする。各元のインスタンスに対する摂動インスタンスを含み、摂動の下での有理整合を忠実性の計量として使う。
論文参考訳（メタデータ） (2022-07-28T08:28:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。