論文の概要: Rank-1 LoRAs Encode Interpretable Reasoning Signals
- arxiv url: http://arxiv.org/abs/2511.06739v1
- Date: Mon, 10 Nov 2025 06:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.097658
- Title: Rank-1 LoRAs Encode Interpretable Reasoning Signals
- Title(参考訳): Rank-1 LoRAsは解釈可能な推論信号を符号化する
- Authors: Jake Ward, Paul Riechers, Adam Shai,
- Abstract要約: 推論モデルは推論時間計算を利用し、論理的タスクにおける言語モデルの性能を大幅に向上させる。
広く採用されているにもかかわらず、これらの推論モデルの強化性能を支えるメカニズムはよく理解されていない。
モデル推論におけるほとんどの新機能は、ベースモデルパラメータへの小さなシングルランクの変更によって引き起こされることを示す。
- 参考スコア(独自算出の注目度): 0.764671395172401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning models leverage inference-time compute to significantly enhance the performance of language models on difficult logical tasks, and have become a dominating paradigm in frontier LLMs. Despite their wide adoption, the mechanisms underpinning the enhanced performance of these reasoning models are not well understood. In this work, we show that the majority of new capabilities in reasoning models can be elicited by small, single-rank changes to base model parameters, with many of these changes being interpretable. Specifically, we use a rank-1 LoRA to create a minimal parameter adapter for Qwen-2.5-32B-Instruct which recovers 73-90% of reasoning-benchmark performance compared to a full parameter finetune. We find that the activations of this LoRA are as interpretable as MLP neurons, and fire for reasoning-specific behaviors. Finally, we train a sparse autoencoder on the entire activation state of this LoRA and identify fine-grained and monosemantic features. Our findings highlight that reasoning performance can arise largely from minimal changes to base model parameters, and explore what these changes affect. More broadly, our work shows that parameter-efficient training methods can be used as a targeted lens for uncovering fundamental insights about language model behavior and dynamics.
- Abstract(参考訳): Reasoning Modelは推論時間計算を利用して、難易度の高い論理的タスクにおける言語モデルの性能を大幅に向上させ、フロンティアLLMにおいて支配的なパラダイムとなっている。
広く採用されているにもかかわらず、これらの推論モデルの強化性能を支えるメカニズムはよく理解されていない。
本研究では,モデル推論におけるほとんどの新機能が,ベースモデルパラメータの小さなシングルランク変更によって引き起こされることを示す。
具体的には、ランク-1 LoRAを用いてQwen-2.5-32B-Instruct用の最小パラメータアダプタを作成し、完全なパラメータファインチューンに比べて73-90%の推論ベンチマーク性能を回復する。
この LoRA の活性化は MLP ニューロンと同程度に解釈可能であり、推論特異的な行動に対して発火する。
最後に、このLoRAの活性化状態全体についてスパースオートエンコーダを訓練し、細粒度で単意味な特徴を識別する。
我々の研究結果は、推論性能はベースモデルパラメータへの最小限の変更から大きくなり得ることを示し、これらの変更がどう影響するかを調査した。
より広範に、我々の研究は、パラメータ効率のトレーニング手法が、言語モデルの振る舞いとダイナミクスに関する基本的な洞察を明らかにするためのターゲットレンズとして利用できることを示している。
関連論文リスト
- Stands to Reason: Investigating the Effect of Reasoning on Idiomaticity Detection [2.8330244018167945]
大規模言語モデルにおける推論能力が慣用性検出性能にどのように影響するかを検討する。
推論の効果は,予想よりも小さく,多様であることがわかった。
より小さなモデルでは、チェーン・オブ・シンクレット(CoT)推論は、Math-tunedの中間モデルから性能を向上するが、ベースモデルのレベルには及ばない。
論文 参考訳(メタデータ) (2025-08-18T21:17:09Z) - DiffLoRA: Differential Low-Rank Adapters for Large Language Models [59.58987161199141]
本稿では,差分アテンション機構のパラメータ効率を考慮したDiffLoRAを提案する。
我々はDiffLoRAを、一般的なベンチマーク、多ショットインコンテキスト学習、RAG、長期コンテキストテストなど、幅広いNLPタスクで評価する。
論文 参考訳(メタデータ) (2025-07-31T14:24:59Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z) - Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。
異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。
意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文 参考訳(メタデータ) (2025-06-24T09:49:26Z) - Relative Overfitting and Accept-Reject Framework [5.465098504510676]
本稿では,性能向上のためにモデルをセグメント化する方法を管理するアンサンブルフレームワークを提案する。
NLPの領域におけるこのフレームワークのパターンを詳述し、コンピュータビジョン(CV)や科学のためのAIなど他の分野に簡単に説明します。
論文 参考訳(メタデータ) (2025-05-12T17:36:14Z) - Improving Reasoning Performance in Large Language Models via Representation Engineering [2.0099933815960256]
大規模言語モデル(LLM)の表現工学的アプローチを提案する。
モデルアクティベーションは、推論タスクを処理する際にLLMの残ストリームから読み込まれる。
LLMは、ある程度に、アクティベーションを調節することで、認識された推論能力を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-04-28T04:58:43Z) - Exploring Model Editing for LLM-based Aspect-Based Sentiment Classification [17.512415475301395]
本研究では,大規模言語モデル(LLM)をアスペクトベース感情分類に適応させる効率的な手法として,モデル編集について検討する。
この結果から,特定のアスペクト単語の感情極性を検出するには,異なる中間層表現のセットが不可欠であることが判明した。
我々は,LLMの重要な部分にのみ焦点をあてたモデル編集手法を開発し,より効率的なLLM適応法を実現する。
論文 参考訳(メタデータ) (2025-03-19T11:21:37Z) - Learning on LoRAs: GL-Equivariant Processing of Low-Rank Weight Spaces for Large Finetuned Models [38.197552424549514]
低ランク適応(LoRA)は、大規模な基礎モデルの微調整に革命をもたらした。
LoRAは、これらの低ランクウェイトを入力として利用する機械学習技術を適用する機会を提供する。
本稿では,LoRA重みが機械学習モデルへの入力として機能するパラダイムであるLoRA(Learning on LoRAs)の可能性を検討する。
論文 参考訳(メタデータ) (2024-10-05T15:52:47Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。