論文の概要: Controlling Chat Style in Language Models via Single-Direction Editing
- arxiv url: http://arxiv.org/abs/2603.03324v1
- Date: Tue, 10 Feb 2026 06:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.152404
- Title: Controlling Chat Style in Language Models via Single-Direction Editing
- Title(参考訳): 単方向編集による言語モデルのチャットスタイル制御
- Authors: Zhenyu Xu, Victor S. Sheng,
- Abstract要約: 本稿では,モデルのアクティベーション空間において,異なるスタイリスティック属性が線形方向として符号化されるという仮説を検証した。
そこで我々は,厳密なスタイル制御のための軽量でトレーニング不要な手法を提案する。
提案手法は, 線形スタイル構成をサポートし, 好ましくない動作を損なうことにより安全性を高めるとともに, 10 モデル以上の実験により, 最小計算コストでコア能力を保ちながら, 高いスタイルの順守を実現する。
- 参考スコア(独自算出の注目度): 43.11304710234668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controlling stylistic attributes in large language models (LLMs) remains challenging, with existing approaches relying on either prompt engineering or post-training alignment. This paper investigates this challenge through the lens of representation engineering, testing the hypothesis that distinct stylistic attributes - from emotional tone to linguistic structure - are encoded as linear directions in the model's activation space. We provide strong empirical evidence for this hypothesis across a wide range of styles and, based on this finding, present a lightweight, training-free method for precise style control. Our approach supports linear style composition, enhances safety by ablating undesirable behaviors, and, as confirmed by experiments on over a dozen models, achieves high style adherence while preserving core capabilities at minimal computational cost.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるスタイリスティックな属性の制御は依然として困難であり、既存のアプローチは、迅速なエンジニアリングとポストトレーニングアライメントのいずれかに依存している。
本稿では, この課題を表現工学のレンズを用いて検討し, モデルのアクティベーション空間において, 感情的トーンから言語的構造に至るまで, 異なるスタイル特性が線形方向として符号化されるという仮説を検証した。
我々は,この仮説を多種多様なスタイルで証明し,この発見に基づいて,高精度なスタイル制御のための軽量で訓練不要な手法を提案する。
提案手法は, 線形スタイル構成をサポートし, 望ましくない動作を損なうことにより安全性を高めるとともに, 10 モデル以上の実験により確認され, 最小計算コストでコア能力を保ちながら, 高いスタイルのアテンデンスを実現する。
関連論文リスト
- Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs [49.66344956133349]
推論能力は、大規模な(ビジョン)言語モデルのための推論時間性能と強化学習(RL)トレーニングの両方を形作る。
本稿では,戦略的文脈化のための潜在変数をモデルに付与する新しい潜在変調フレームワークであるReasoning Paletteを提案する。
論文 参考訳(メタデータ) (2025-12-19T03:32:53Z) - Balancing Stylization and Truth via Disentangled Representation Steering [6.3136797036993375]
表現編集によるスタイル付き大言語モデル (LLM) 応答は、微細な出力制御において有望な方法である。
独特なスタイルを課すことは、しばしば真理を損なう。
既存の表現編集手法は、この副次的影響を見落とし、モデルのコアの真正性表現を頻繁に汚染する。
スタイリトゥルース(StyliTruth, StyliTruth, StyliTruth, StyliTruth, StyliTruth, StyliTruth)を提案する。
論文 参考訳(メタデータ) (2025-08-06T15:12:05Z) - DiffArtist: Towards Structure and Appearance Controllable Image Stylization [35.59051707152096]
textbfDiffArtistは、構造と外観スタイルの強さの両方をきめ細かな同時制御する最初の2Dスタイリング方法である。
解析の結果,DiffArtistは最先端の手法と比較して,スタイルの忠実さと二重制御性が優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-22T17:58:05Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。
本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。
解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - SLUA: A Super Lightweight Unsupervised Word Alignment Model via
Cross-Lingual Contrastive Learning [79.91678610678885]
超軽量非教師付き単語アライメントモデル(SLUA)を提案する。
いくつかの公開ベンチマークによる実験結果から,我々のモデルは性能が向上しても競争力を発揮することが示された。
特に、我々のモデルはバイリンガル単語の埋め込みと単語のアライメントを統一する先駆的な試みであると認識している。
論文 参考訳(メタデータ) (2021-02-08T05:54:11Z) - GTAE: Graph-Transformer based Auto-Encoders for Linguistic-Constrained
Text Style Transfer [119.70961704127157]
近年,非並列テキストスタイルの転送が研究の関心を集めている。
現在のアプローチでは、元の文の内容やロジックを保存できない。
文を言語グラフとしてモデル化し,グラフレベルで特徴抽出とスタイル転送を行う,グラフトランスフォーマーベースのAuto-GTAEを提案する。
論文 参考訳(メタデータ) (2021-02-01T11:08:45Z) - StyleDGPT: Stylized Response Generation with Pre-trained Language Models [39.526613595499356]
KL損失とスタイル分類器を導入し、単語レベルと文レベルの両方において、ターゲットスタイルに対して応答生成を操る。
我々のモデルは、スタイル整合性とコンテキスト整合性の両方の観点から、最先端の手法を著しく上回ります。
論文 参考訳(メタデータ) (2020-10-06T09:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。