論文の概要: Balancing Stylization and Truth via Disentangled Representation Steering
- arxiv url: http://arxiv.org/abs/2508.04530v2
- Date: Thu, 07 Aug 2025 06:14:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 11:49:27.112326
- Title: Balancing Stylization and Truth via Disentangled Representation Steering
- Title(参考訳): アンタングル表現ステアリングによるスティル化と真理のバランス
- Authors: Chenglei Shen, Zhongxiang Sun, Teng Shi, Xiao Zhang, Jun Xu,
- Abstract要約: 表現編集によるスタイル付き大言語モデル (LLM) 応答は、微細な出力制御において有望な方法である。
独特なスタイルを課すことは、しばしば真理を損なう。
既存の表現編集手法は、この副次的影響を見落とし、モデルのコアの真正性表現を頻繁に汚染する。
スタイリトゥルース(StyliTruth, StyliTruth, StyliTruth, StyliTruth, StyliTruth, StyliTruth)を提案する。
- 参考スコア(独自算出の注目度): 6.3136797036993375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating stylized large language model (LLM) responses via representation editing is a promising way for fine-grained output control. However, there exists an inherent trade-off: imposing a distinctive style often degrades truthfulness. Existing representation editing methods, by naively injecting style signals, overlook this collateral impact and frequently contaminate the model's core truthfulness representations, resulting in reduced answer correctness. We term this phenomenon stylization-induced truthfulness collapse. We attribute this issue to latent coupling between style and truth directions in certain key attention heads, and propose StyliTruth, a mechanism that preserves stylization while keeping truthfulness intact. StyliTruth separates the style-relevant and truth-relevant subspaces in the model's representation space via an orthogonal deflation process. This decomposition enables independent control of style and truth in their own subspaces, minimizing interference. By designing adaptive, token-level steering vectors within each subspace, we dynamically and precisely control the generation process to maintain both stylistic fidelity and truthfulness. We validate our method on multiple styles and languages. Extensive experiments and analyses show that StyliTruth significantly reduces stylization-induced truthfulness collapse and outperforms existing inference-time intervention methods in balancing style adherence with truthfulness.
- Abstract(参考訳): 表現編集によるスタイル付き大言語モデル(LLM)応答の生成は、微細な出力制御において有望な方法である。
しかし、固有のトレードオフがあり、独特なスタイルが真理を損なうことがしばしばある。
既存の表現編集手法は、スタイル信号に鼻で注入することで、この横方向の影響を見落とし、モデルのコアの真正性表現を頻繁に汚染し、回答の正しさを低下させる。
この現象はスタイリゼーションによって引き起こされる真理の崩壊を意味する。
我々は,この課題を,あるキーアテンションヘッドにおけるスタイルと真理方向の遅延結合によるものとみなし,真理性を維持しつつスタイリゼーションを維持する機構であるStyliTruthを提案する。
StyliTruth は直交デフレ過程を通じてモデル表現空間のスタイル関連部分空間と真実関連部分空間を分離する。
この分解により、自分自身のサブ空間におけるスタイルと真実を独立に制御し、干渉を最小限に抑えることができる。
各部分空間内で適応的なトークンレベルのステアリングベクトルを設計することにより、スタイリスティックな忠実さと忠実さの両方を維持するために生成プロセスを動的かつ正確に制御する。
提案手法を複数のスタイルや言語で検証する。
StyliTruthはスタイリゼーションによって引き起こされる真理の崩壊を著しく減らし、既存の推論時間介入法を真理の一致のバランスで上回ることを示した。
関連論文リスト
- Large Language Models Encode Semantics in Low-Dimensional Linear Subspaces [31.401762286885656]
大規模言語モデル(LLM)の空間幾何学を理解することは、それらの振る舞いを解釈し、アライメントを改善する鍵となる。
baturay LLMが意味理解に関連する内部的な組織構造を調査する。
論文 参考訳(メタデータ) (2025-07-13T17:03:25Z) - Be Decisive: Noise-Induced Layouts for Multi-Subject Generation [56.80513553424086]
複雑なプロンプトは被写体漏れを引き起こし、量、属性、視覚的特徴の不正確さを引き起こす。
本稿では,初期雑音から導出されるプロンプトに整合した空間配置を予測し,デノナイジング過程を通じて改良する手法を提案する。
提案手法では,各聴覚ステップにおける雑音誘発レイアウトを予測・改善するために,小さなニューラルネットワークを用いる。
論文 参考訳(メタデータ) (2025-05-27T17:54:24Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - DRESSing Up LLM: Efficient Stylized Question-Answering via Style Subspace Editing [23.467409274256255]
DRESSは、表現編集によってスタイル化された大言語モデル(LLM)応答を生成する新しいアプローチである。
提案手法は,モデル表現空間内のスタイル関連部分空間をアンタングルして表現編集を行う。
簡単に言うと、DRESSは柔軟で効果的なスタイル制御を備えたLLMの拡張のための軽量で、列車無しのソリューションである。
論文 参考訳(メタデータ) (2025-01-24T10:04:53Z) - Z-STAR+: A Zero-shot Style Transfer Method via Adjusting Style Distribution [24.88532732093652]
スタイル転送は重要な課題であり、主に適切なスタイル表現を特定することに焦点を当てている。
既存の手法とは対照的に,バニラ拡散モデルにおける潜在的特徴が自然的スタイルや内容分布を本質的に含んでいることが判明した。
提案手法では,コンテンツ参照とスタイル参照を遅延空間で表現するために,デュアル・デノナイズ・パスを採用し,その後,スタイル遅延符号を用いたコンテントイメージ・デノナイズ・プロセスの導出を行う。
論文 参考訳(メタデータ) (2024-11-28T15:56:17Z) - DiffArtist: Towards Structure and Appearance Controllable Image Stylization [19.5597806965592]
本稿では2次元画像の構造と外観の同時スタイリングについて包括的に研究する。
DiffArtistは、構造と外観の二重制御を可能にする最初のスタイリング手法である。
論文 参考訳(メタデータ) (2024-07-22T17:58:05Z) - Deformable One-shot Face Stylization via DINO Semantic Guidance [12.771707124161665]
本稿では、外観と構造を同時に考慮したワンショット顔スタイリングの問題に対処する。
従来の単一イメージスタイルの参照から切り離された変形認識顔のスタイリングを探索し、代わりにリアルスタイルのイメージペアを選択する。
論文 参考訳(メタデータ) (2024-03-01T11:30:55Z) - ALADIN-NST: Self-supervised disentangled representation learning of
artistic style through Neural Style Transfer [60.6863849241972]
我々は、画像に描かれた意味的内容から、より強く絡み合った視覚芸術スタイルの表現を学習する。
スタイルと内容の絡み合いに強く対処することで、スタイル固有のメトリクスが大きく向上することを示します。
論文 参考訳(メタデータ) (2023-04-12T10:33:18Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z) - Where and What? Examining Interpretable Disentangled Representations [96.32813624341833]
解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。
独立性の仮定と異なり、解釈性は教師なしの設定での絡み合いを促進するために使われることは滅多にない。
本論文では, 解釈対象と解釈対象の2つの質問について検討し, 離散表現の解釈可能性を検討する。
論文 参考訳(メタデータ) (2021-04-07T11:22:02Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z) - Learning to Manipulate Individual Objects in an Image [71.55005356240761]
本稿では,独立性および局所性を有する潜在因子を用いた生成モデルを学習する手法について述べる。
これは、潜伏変数の摂動が、オブジェクトに対応する合成画像の局所領域のみに影響を与えることを意味する。
他の教師なし生成モデルとは異なり、オブジェクトレベルのアノテーションを必要とせず、オブジェクト中心の操作を可能にする。
論文 参考訳(メタデータ) (2020-04-11T21:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。