論文の概要: Bridging Mechanistic Interpretability and Prompt Engineering with Gradient Ascent for Interpretable Persona Control
- arxiv url: http://arxiv.org/abs/2601.02896v1
- Date: Tue, 06 Jan 2026 10:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.893619
- Title: Bridging Mechanistic Interpretability and Prompt Engineering with Gradient Ascent for Interpretable Persona Control
- Title(参考訳): 対話型ペルソナ制御のためのグラディエントアクセントによるブリッジング機械的解釈可能性とプロンプトエンジニアリング
- Authors: Harshvardhan Saini, Yiming Tang, Dianbo Liu,
- Abstract要約: 大規模言語モデル(LLM)に勾配を適応させる新しいフレームワークを提案する。
Llama 3.1, Qwen 2.5, Gemma 3におけるRESGAとSAEGAの有効性を示す。
本手法は,制御可能かつ解釈可能な動作修正のための新しいパラダイムを提供する。
- 参考スコア(独自算出の注目度): 4.707391886736485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlling emergent behavioral personas (e.g., sycophancy, hallucination) in Large Language Models (LLMs) is critical for AI safety, yet remains a persistent challenge. Existing solutions face a dilemma: manual prompt engineering is intuitive but unscalable and imprecise, while automatic optimization methods are effective but operate as "black boxes" with no interpretable connection to model internals. We propose a novel framework that adapts gradient ascent to LLMs, enabling targeted prompt discovery. In specific, we propose two methods, RESGA and SAEGA, that both optimize randomly initialized prompts to achieve better aligned representation with an identified persona direction. We introduce fluent gradient ascent to control the fluency of discovered persona steering prompts. We demonstrate RESGA and SAEGA's effectiveness across Llama 3.1, Qwen 2.5, and Gemma 3 for steering three different personas,sycophancy, hallucination, and myopic reward. Crucially, on sycophancy, our automatically discovered prompts achieve significant improvement (49.90% compared with 79.24%). By grounding prompt discovery in mechanistically meaningful features, our method offers a new paradigm for controllable and interpretable behavior modification.
- Abstract(参考訳): 大規模言語モデル(LLM)における創発的な行動的ペルソナ(例えば、梅毒、幻覚)の制御は、AIの安全性には不可欠だが、それでも永続的な課題である。
既存のソリューションはジレンマに直面しており、手動のプロンプトエンジニアリングは直感的であるが、計算不能で不正確である一方、自動最適化手法は効果的であるが、モデル内部への解釈可能な接続を持たない「ブラックボックス」として動作する。
本研究では,LLMの勾配上昇に適応し,目標とする急激な発見を可能にする新しいフレームワークを提案する。
具体的には、2つの手法、RESGAとSAEGAを提案し、どちらもランダムに初期化プロンプトを最適化し、識別されたペルソナ方向との整合性を向上する。
我々は,発見されたペルソナ操舵プロンプトの流速を制御するために,流動性勾配の上昇を導入する。
Llama 3.1, Qwen 2.5, Gemma 3にまたがるRESGAとSAEGAの有効性を示す。
重要なことに、梅毒では、我々の自動的に発見されたプロンプトは、79.24%と比較して、49.90%の大幅な改善が達成される。
機械的に意味のある特徴の素早い発見を基礎として,本手法は制御可能かつ解釈可能な振る舞い修正のための新しいパラダイムを提供する。
関連論文リスト
- Feature-Guided SAE Steering for Refusal-Rate Control using Contrasting Prompts [1.1565815257603067]
LLM(Large Language Model)デプロイメントでは、LLMが安全でないプロンプトを認識し、安全でないプロンプトに応答しないように指示する必要がある。
これを実現するには、他の高価な手順とともにモデルの重みを調整する必要がある。
我々は,スパースオートエンコーダ(SAE)を用いて,異なるステアリング機能とステアリング強度を用いてソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-26T20:54:30Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - Painless Activation Steering: An Automated, Lightweight Approach for Post-Training Large Language Models [0.3966526231056968]
アクティベーションステアリング(AS)は、既存の2つのポストトレーニング方法に代わる、安価で、高速で、制御可能な代替手段を約束する。
完全に自動化された手法のファミリーであるPainless Activation Steering (PAS)を紹介する。
PASは行動タスクのパフォーマンスを確実に向上させるが、インテリジェンス指向のタスクには向いていない。
論文 参考訳(メタデータ) (2025-09-25T23:25:47Z) - Semantic-Preserving Adversarial Attacks on LLMs: An Adaptive Greedy Binary Search Approach [15.658579092368981]
大規模言語モデル(LLM)は、ユーザ入力を洗練させ、応答精度を向上させるために、グラフィカルユーザインタフェース(GUI)における自動プロンプト工学に依存している。
本稿では, セマンティック安定性を維持しつつ, 共通的なプロンプト最適化機構をシミュレートするアダプティブ・グレディ・バイナリ・サーチ(AGBS)手法を提案する。
論文 参考訳(メタデータ) (2025-05-26T15:41:06Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - Auto-Prompt Generation is Not Robust: Prompt Optimization Driven by Pseudo Gradient [50.15090865963094]
PertBenchは、幅広い入力摂動を含む包括的なベンチマークデータセットである。
我々の分析は、既存の即時生成戦略における重大な脆弱性を明らかにしている。
PGOは、摂動型を擬似次数次信号として活用する、勾配のないプロンプト生成フレームワークである。
論文 参考訳(メタデータ) (2024-12-24T06:05:08Z) - 3D-Prover: Diversity Driven Theorem Proving With Determinantal Point Processes [17.379356401253986]
自動形式推論における重要な課題は、証明の深さとともに指数関数的に成長する、難解な探索空間である。
セマンティックな多様性と高品質な戦術を活用する新しいフィルタリング機構を提案する。
提案手法は, 総合的な証明率の向上と, 戦術的成功率, 実行時間, 多様性の大幅な向上につながることを示す。
論文 参考訳(メタデータ) (2024-10-14T23:13:53Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Exploring Visual Context for Weakly Supervised Person Search [155.46727990750227]
人探索は、歩行者の検出と人物の再識別を共同で扱う、困難なタスクとして最近登場した。
既存のアプローチは、バウンディングボックスとIDアノテーションの両方が利用可能な完全に教師付き設定に従っている。
本稿では,ボックスアノテーションのみを用いた弱教師付き人物検索について実験的に考察する。
論文 参考訳(メタデータ) (2021-06-19T14:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。