論文の概要: Manipulating Transformer-Based Models: Controllability, Steerability, and Robust Interventions
- arxiv url: http://arxiv.org/abs/2509.04549v1
- Date: Thu, 04 Sep 2025 17:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.374846
- Title: Manipulating Transformer-Based Models: Controllability, Steerability, and Robust Interventions
- Title(参考訳): トランスフォーマーモデルを操作する:制御性、ステアビリティ、ロバストな介入
- Authors: Faruk Alpay, Taylan Alpay,
- Abstract要約: トランスフォーマーベースの言語モデルは、NLPタスクでは優れているが、きめ細かい制御は依然として難しい。
本稿では,3段階の介入(プロンプト,アクティベーション,ウェイト)を通じてトランスフォーマーモデルを操作する手法について検討する。
本稿では,プロンプトレベルのステアリング,アクティベーション介入,重み空間編集を含む統一的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.2864713389096699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models excel in NLP tasks, but fine-grained control remains challenging. This paper explores methods for manipulating transformer models through principled interventions at three levels: prompts, activations, and weights. We formalize controllable text generation as an optimization problem addressable via prompt engineering, parameter-efficient fine-tuning, model editing, and reinforcement learning. We introduce a unified framework encompassing prompt-level steering, activation interventions, and weight-space edits. We analyze robustness and safety implications, including adversarial attacks and alignment mitigations. Theoretically, we show minimal weight updates can achieve targeted behavior changes with limited side-effects. Empirically, we demonstrate >90% success in sentiment control and factual edits while preserving base performance, though generalization-specificity trade-offs exist. We discuss ethical dual-use risks and the need for rigorous evaluation. This work lays groundwork for designing controllable and robust language models.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、NLPタスクでは優れているが、きめ細かい制御は依然として難しい。
本稿では,3段階の介入(プロンプト,アクティベーション,ウェイト)を通じてトランスフォーマーモデルを操作する手法について検討する。
我々は、制御可能なテキスト生成を、プロンプトエンジニアリング、パラメータ効率の良い微調整、モデル編集、強化学習によって解決可能な最適化問題として定式化する。
本稿では,プロンプトレベルのステアリング,アクティベーション介入,重み空間編集を含む統一的なフレームワークを提案する。
我々は、敵攻撃やアライメント緩和など、ロバストネスと安全への影響を分析した。
理論的には、最小限の重量更新は、限られた副作用を伴う標的行動変化を達成できることを示す。
経験的には、一般化特異性トレードオフはあるものの、ベースパフォーマンスを維持しながら感情制御と事実編集の90%の成功を実証する。
倫理的二重利用リスクと厳格な評価の必要性について論じる。
この作業は、制御可能で堅牢な言語モデルを設計するための基礎となる。
関連論文リスト
- Model Editing as a Double-Edged Sword: Steering Agent Ethical Behavior Toward Beneficence or Harm [57.00627691433355]
我々は、モデル編集タスクとしてエージェントの行動ステアリングをフレーム化し、振舞い編集という。
心理学的道徳理論に基づくベンチマークであるBehaviorBenchを紹介する。
行動編集は倫理的・好意的な行動を促進するためにも、逆に有害な行動や悪意のある行動を引き起こすためにも利用できることを実証する。
論文 参考訳(メタデータ) (2025-06-25T16:51:51Z) - Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms [71.85633762642125]
モデルにおける膨大な数のパラメータは、しばしば高度に絡み合った内部表現をもたらす。
最近の研究は、スパースオートエンコーダ(SAE)を用いて、ステアリングのための高次元空間における知識を歪めている。
本研究では,非絡み合った知識コンポーネントを分離・操作し,安全性を高める手法であるステアリングターゲット原子(STA)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:59:18Z) - Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - Towards LLM Guardrails via Sparse Representation Steering [11.710399901426873]
大規模言語モデル(LLM)は、自然言語生成タスクにおいて顕著な性能を示した。
SREと呼ばれるスパース符号化に基づく表現工学手法を提案し、ポリセマンティックなアクティベーションを構造化された単セマンティックな特徴空間に分解する。
スパースオートエンコーディングを活用することで,タスク固有のスパース特徴次元のみを分離・調整し,モデル動作の精密かつ解釈可能なステアリングを可能にする。
論文 参考訳(メタデータ) (2025-03-21T04:50:25Z) - Inference-Time Intervention in Large Language Models for Reliable Requirement Verification [2.3759432635713895]
推論時間介入技術は微調整に代わる有望な手段である。
我々は、介入が通常時間を要する要求検証プロセスを自動化するためのきめ細かい制御を可能にする方法を実証する。
提案手法は, ベースラインモデルと微調整手法の両方において, 頑健で信頼性の高い出力を実現する。
論文 参考訳(メタデータ) (2025-03-18T10:49:36Z) - Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - ConBaT: Control Barrier Transformer for Safe Policy Learning [26.023275758215423]
Control Barrier Transformer (ConBaT) は、自己管理型でデモから安全な動作を学ぶアプローチである。
デプロイメントでは、軽量なオンライン最適化を使用して、学習された安全なセット内に将来状態が確実に配置されるアクションを見つけます。
論文 参考訳(メタデータ) (2023-03-07T20:04:28Z) - OSCAR: Data-Driven Operational Space Control for Adaptive and Robust
Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。
本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。
本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-10-02T01:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。