論文の概要: Improving LLM Reasoning through Interpretable Role-Playing Steering
- arxiv url: http://arxiv.org/abs/2506.07335v1
- Date: Mon, 09 Jun 2025 00:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.768921
- Title: Improving LLM Reasoning through Interpretable Role-Playing Steering
- Title(参考訳): 解釈可能なロールプレイングステアリングによるLLM推論の改善
- Authors: Anyi Wang, Dong Shu, Yifan Wang, Yunpu Ma, Mengnan Du,
- Abstract要約: ロールプレイングは大規模言語モデル(LLM)の推論能力を高める効果的な手法として登場した。
Sparse Autoencoder Role-Playing Steering (SRPS) は、ロールプレイング行動に関連する内部モデルの特徴を特定し、操作する新しいフレームワークである。
提案手法は,ロールプレイプロンプトから潜在表現を抽出し,アクティベーションパターンに基づいて最も関連性の高い特徴を選択し,制御可能な強度でモデルの残留ストリームに注入可能なステアリングベクトルを構築する。
- 参考スコア(独自算出の注目度): 23.75554062102392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Role-playing has emerged as an effective technique for enhancing the reasoning capabilities of large language models (LLMs). However, existing methods primarily rely on prompt engineering, which often lacks stability and interpretability. In this paper, we introduce Sparse Autoencoder Role-Playing Steering (SRPS), a novel framework that identifies and manipulates internal model features associated with role-playing behavior. Our approach extracts latent representations from role-play prompts, selects the most relevant features based on activation patterns, and constructs a steering vector that can be injected into the model's residual stream with controllable intensity. Our method enables fine-grained control over role-specific behavior and offers insights into how role information influences internal model activations. Extensive experiments across various reasoning benchmarks and model sizes demonstrate consistent performance gains. Notably, in the zero-shot chain-of-thought (CoT) setting, the accuracy of Llama3.1-8B on CSQA improves from 31.86% to 39.80%, while Gemma2-9B on SVAMP increases from 37.50% to 45.10%. These results highlight the potential of SRPS to enhance reasoning ability in LLMs, providing better interpretability and stability compared to traditional prompt-based role-playing.
- Abstract(参考訳): ロールプレイングは大規模言語モデル(LLM)の推論能力を高める効果的な手法として登場した。
しかし、既存の手法は、しばしば安定性と解釈可能性に欠ける急進的な工学に依存している。
本稿では,Sparse Autoencoder Role-Playing Steering(SRPS)を紹介する。
提案手法は,ロールプレイプロンプトから潜在表現を抽出し,アクティベーションパターンに基づいて最も関連性の高い特徴を選択し,制御可能な強度でモデルの残留ストリームに注入可能なステアリングベクトルを構築する。
本手法は,役割固有行動のきめ細かい制御を可能にし,役割情報が内部モデルアクティベーションにどのように影響するかを洞察する。
様々な推論ベンチマークとモデルサイズにわたる大規模な実験は、一貫したパフォーマンス向上を示している。
特に、ゼロショットチェーン(CoT)では、CSQA上のLlama3.1-8Bの精度は31.86%から39.80%に向上し、SVAMP上のGemma2-9Bは37.50%から45.10%に向上した。
これらの結果は,LSMにおける推論能力を高めるSRPSの可能性を強調し,従来のプロンプトベースのロールプレイングと比較して,解釈性と安定性が向上した。
関連論文リスト
- RAIDEN-R1: Improving Role-awareness of LLMs via GRPO with Verifiable Reward [7.9399136525335585]
RAIDEN-R1は、VRAR(Verifiable Role-Awareness Reward)を統合した新しい強化学習フレームワークである
マルチLLMコラボレーションにより,高品質で役割対応のChain-of-Thoughtデータセットを構築した。
RAIDENベンチマークの実験では、RAIDEN-R1の優位性が示されている。
論文 参考訳(メタデータ) (2025-05-15T12:22:10Z) - Enhancing Persona Consistency for LLMs' Role-Playing using Persona-Aware Contrastive Learning [7.836439251883518]
モデルロールプレイング行動を調整するために,textbfunderlinePersona-Aware textbfunderlineContrastive textbfunderlineLearning (PCL) という新しいフレームワークを提案する。
自動評価法と人手による評価では,PCLはバニラLLMよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-22T06:12:34Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Role-Play Paradox in Large Language Models: Reasoning Performance Gains and Ethical Dilemmas [7.677029165197536]
大型言語モデル(LLM)におけるロールプレイは、文脈的に関連性があり高品質な応答を生成する能力を高める。
本稿では,モデルの役割を自動選択する手法であるオートチューニングが,有害なアウトプットの生成につながることを実証する。
論文 参考訳(メタデータ) (2024-09-21T02:09:13Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。