論文の概要: Scaling sparse feature circuit finding for in-context learning
- arxiv url: http://arxiv.org/abs/2504.13756v1
- Date: Fri, 18 Apr 2025 15:45:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 15:08:07.279432
- Title: Scaling sparse feature circuit finding for in-context learning
- Title(参考訳): 文脈内学習のためのスパース特徴回路のスケーリング
- Authors: Dmitrii Kharlapenko, Stepan Shabalin, Fazl Barez, Arthur Conmy, Neel Nanda,
- Abstract要約: スパースオートエンコーダ(SAE)は、大規模言語モデルのアクティベーションを解釈するための一般的なツールである。
本研究では,テキスト内学習(ICL)の背景にあるメカニズムの理解を深めるために,SAEを用いてその効果を実証する。
我々は、どのタスクを実行するか、どの潜在ベクトルがタスクゼロショットを因果的に誘導するかというモデルの知識を符号化する抽象的なSAE特徴を識別する。
- 参考スコア(独自算出の注目度): 5.039423940101588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) are a popular tool for interpreting large language model activations, but their utility in addressing open questions in interpretability remains unclear. In this work, we demonstrate their effectiveness by using SAEs to deepen our understanding of the mechanism behind in-context learning (ICL). We identify abstract SAE features that (i) encode the model's knowledge of which task to execute and (ii) whose latent vectors causally induce the task zero-shot. This aligns with prior work showing that ICL is mediated by task vectors. We further demonstrate that these task vectors are well approximated by a sparse sum of SAE latents, including these task-execution features. To explore the ICL mechanism, we adapt the sparse feature circuits methodology of Marks et al. (2024) to work for the much larger Gemma-1 2B model, with 30 times as many parameters, and to the more complex task of ICL. Through circuit finding, we discover task-detecting features with corresponding SAE latents that activate earlier in the prompt, that detect when tasks have been performed. They are causally linked with task-execution features through the attention and MLP sublayers.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、大規模言語モデルのアクティベーションを解釈するための一般的なツールであるが、解釈容易性においてオープンな問題に対処する彼らのユーティリティは、まだ不明である。
本研究では,テキスト内学習(ICL)の背景にあるメカニズムの理解を深めるために,SAEを用いてその効果を実証する。
抽象的なSAEの特徴を識別する
i)どのタスクを実行するかのモデルの知識を符号化し、
(ii) 潜在ベクトルはタスクゼロショットを因果的に誘導する。
これは、ICLがタスクベクトルによって仲介されていることを示す以前の作業と一致している。
さらに、これらのタスクベクトルは、これらのタスク実行機能を含むSAEラテントのスパース和によってよく近似されていることを実証する。
ICL機構を探索するために、Marks et al (2024) のスパース特徴回路手法を、より大きなGemma-1 2Bモデルに適応させ、パラメータの30倍、ICLのより複雑なタスクに適応する。
回路探索により,タスクがいつ実行されたかを検出するプロンプトで早期に起動する,対応するSAE潜伏剤を用いたタスク検出機能を発見した。
それらは注意層とMLPサブレイヤを通してタスク実行機能に因果的に関連付けられている。
関連論文リスト
- Take Off the Training Wheels Progressive In-Context Learning for Effective Alignment [22.224737528266598]
本稿では,アライメントタスクにおけるトークン表現に対するデモの効果について検討する。
2段階からなる効率的なプログレッシブ・イン・コンテクストアライメント(PICA)手法を提案する。
我々の研究は、ICLのアライメントへの応用を強調し、複雑な世代に対するICLのより深い理解を求める。
論文 参考訳(メタデータ) (2025-03-13T02:01:02Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Extracting Interpretable Task-Specific Circuits from Large Language Models for Faster Inference [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
対象タスクを適切に実行するLLMのサブセットを自動的に抽出する新しい手法を提案する。
得られたモデルはかなり小さく、パラメータの数を82.77%まで減らし、(ii)より解釈可能であることを示す。
論文 参考訳(メタデータ) (2024-12-20T10:11:44Z) - Stress-Testing Long-Context Language Models with Lifelong ICL and Task Haystack [33.178008350124315]
長いコンテキスト言語モデル(LM)に挑戦し、インコンテキスト学習(ICL)を通して言語タスクのシーケンスを学習する問題設定であるLifelong ICLを導入する。
長文LMがLifelong ICLのコンテキストをどのように利用するかを評価し診断するための評価スイートであるTask Haystackを紹介する。
論文 参考訳(メタデータ) (2024-07-23T17:57:41Z) - TEGEE: Task dEfinition Guided Expert Ensembling for Generalizable and Few-shot Learning [37.09785060896196]
タスク定義を明示的に抽出する textbfTEGEE (Task Definition Guided Expert Ensembling) を提案する。
私たちのフレームワークは2つの3Bモデルアプローチを採用しています。
実験により, TEGEEはより大きなLLaMA2-13Bモデルと相容れない性能を示した。
論文 参考訳(メタデータ) (2024-03-07T05:26:41Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - LLMs Learn Task Heuristics from Demonstrations: A Heuristic-Driven Prompting Strategy for Document-Level Event Argument Extraction [12.673710691468264]
本稿では,Huristic-Driven Link-of-Alogy (HD-LoA)を導入し,サンプル選択の課題に対処する。
人間の類推的推論にインスパイアされ,LLMが新たな状況に対処できるリンク・オブ・アナロジー・プロンプトを提案する。
実験により,本手法は文書レベルのAEデータセット上で,既存のプロンプト手法や数発の教師付き学習手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-11-11T12:05:01Z) - Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。
我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:39:20Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。