論文の概要: Towards Interpretable and Inference-Optimal COT Reasoning with Sparse Autoencoder-Guided Generation
- arxiv url: http://arxiv.org/abs/2510.01528v1
- Date: Thu, 02 Oct 2025 00:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.907919
- Title: Towards Interpretable and Inference-Optimal COT Reasoning with Sparse Autoencoder-Guided Generation
- Title(参考訳): スパースオートエンコーダ誘導による最適COT推論
- Authors: Daniel Zhao, Abhilash Shankarampeta, Lanxiang Hu, Tajana Rosing, Hao Zhang,
- Abstract要約: 大規模言語モデル(LLM)の内部トークン表現を解析するための新しい手法を提案する。
我々のアプローチはまずSAEを訓練し、トークンを訓練するためのスパースベクトル表現を生成し、次にk平均クラスタリングを適用してグラフを構築する。
このグラフを用いて、確立された推論トレースへの付着を定量化するためのエッジウェイトに基づく報酬関数を定義する。
- 参考スコア(独自算出の注目度): 15.935639999318589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel method that leverages sparse autoencoders (SAEs) and clustering techniques to analyze the internal token representations of large language models (LLMs) and guide generations in mathematical reasoning tasks. Our approach first trains an SAE to generate sparse vector representations for training tokens, then applies k-means clustering to construct a graph where vertices represent token clusters and weighted edges capture sequential token transitions. Using this graph, we define an edge-weight based reward function to quantify adherence to established reasoning traces, thereby identifying exploitative reasoning trajectories. Additionally, we measure generation diversity from clustering to assess the extent of exploration. Our findings indicate that balancing both exploitation and exploration is crucial for achieving high accuracy in mathematical reasoning tasks. During generation, the SAE can serve as a scalable reward model to guide generations, ensuring a balanced trade-off between exploitation and exploration. This prevents extreme behaviors in either direction, ultimately fostering a higher-quality reasoning process in LLMs.
- Abstract(参考訳): 本研究では,スパースオートエンコーダ(SAE)とクラスタリング技術を利用して,大規模言語モデル(LLM)の内部トークン表現を分析し,数学的推論タスクにおける世代を導く手法を提案する。
我々のアプローチは、まずSAEを訓練し、トークンを訓練するための疎ベクトル表現を生成し、次にk平均クラスタリングを適用して、頂点がトークンクラスタを表し、重み付きエッジがシーケンシャルトークン遷移をキャプチャするグラフを構築する。
このグラフを用いて、確立された推論トレースへの付着を定量化するために、エッジウェイトに基づく報酬関数を定義し、これにより、搾取的推論軌跡を同定する。
さらに,クラスタリングから生成する多様性を測定し,探索範囲を評価する。
本研究は, 数学的推論タスクにおいて, エクスプロイトと探索の両立が極めて重要であることを示唆する。
世代間、SAEは世代を導くためのスケーラブルな報酬モデルとして機能し、搾取と探検の間のバランスのとれたトレードオフを確保することができる。
これにより、どちらの方向でも極端な挙動が防止され、最終的にLLMの高品質な推論プロセスが促進される。
関連論文リスト
- Predict, Cluster, Refine: A Joint Embedding Predictive Self-Supervised Framework for Graph Representation Learning [0.0]
グラフ表現学習は、ノード分類やリンク予測といったタスクの基盤として登場した。
現在の自己教師付き学習(SSL)手法は、計算の非効率性、対照的な目的への依存、表現の崩壊といった課題に直面している。
本稿では,意味情報と構造情報を保存しながら,対照的な目的と負のサンプリングを排除したグラフSSLのための新しい結合埋め込み予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-02T07:42:45Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z) - Embedding Graph Auto-Encoder for Graph Clustering [90.8576971748142]
グラフ自動エンコーダ(GAE)モデルは、半教師付きグラフ畳み込みネットワーク(GCN)に基づく
我々は、グラフクラスタリングのための特定のGAEベースのモデルを設計し、その理論、すなわち、埋め込みグラフオートエンコーダ(EGAE)と整合する。
EGAEは1つのエンコーダと2つのデコーダで構成される。
論文 参考訳(メタデータ) (2020-02-20T09:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。