論文の概要: Concept Heterogeneity-aware Representation Steering
- arxiv url: http://arxiv.org/abs/2603.02237v1
- Date: Fri, 13 Feb 2026 11:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.103424
- Title: Concept Heterogeneity-aware Representation Steering
- Title(参考訳): 概念不均一性を考慮した表現ステアリング
- Authors: Laziz U. Abdullaev, Noelle Y. L. Wong, Ryan T. Z. Lee, Shiqi Jiang, Khoi N. M. Nguyen, Tan M. Nguyen,
- Abstract要約: Representation steeringは、推論時に内部アクティベーションに介入することで、大きな言語モデル(LLM)の振る舞いを制御するメカニズムを提供する。
既存のほとんどの手法は単一のグローバルな操舵方向に依存しており、典型的には対照的なデータセットよりも差分で得られる。
本研究では、最適輸送(OT)のレンズによる表現ステアリングを視認し、標準差分ステアリングが2つの非モダルガウス分布間のOTマップと暗黙的に対応していることに注意する。
- 参考スコア(独自算出の注目度): 6.247724933679344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representation steering offers a lightweight mechanism for controlling the behavior of large language models (LLMs) by intervening on internal activations at inference time. Most existing methods rely on a single global steering direction, typically obtained via difference-in-means over contrastive datasets. This approach implicitly assumes that the target concept is homogeneously represented across the embedding space. In practice, however, LLM representations can be highly non-homogeneous, exhibiting clustered, context-dependent structure, which renders global steering directions brittle. In this work, we view representation steering through the lens of optimal transport (OT), noting that standard difference-in-means steering implicitly corresponds to the OT map between two unimodal Gaussian distributions with identical covariance, yielding a global translation. To relax this restrictive assumption, we theoretically model source and target representations as Gaussian mixture models and formulate steering as a discrete OT problem between semantic latent clusters. From the resulting transport plan, we derive an explicit, input-dependent steering map via barycentric projection, producing a smooth, kernel-weighted combination of cluster-level shifts. We term this method Concept Heterogeneity-aware Representation Steering (CHaRS). Through numerous experimental settings, we show that CHaRS yields more effective behavioral control than global steering.
- Abstract(参考訳): Representation steeringは、推論時に内部アクティベーションに介入することで、大きな言語モデル(LLM)の振る舞いを制御するための軽量なメカニズムを提供する。
既存のほとんどの手法は単一のグローバルな操舵方向に依存しており、典型的には対照的なデータセットよりも差分で得られる。
このアプローチは、対象の概念が埋め込み空間全体で均質に表現されていることを暗黙的に仮定する。
しかし実際には、LLM表現は非均一であり、クラスタ化され、コンテキストに依存した構造を示し、グローバルな操舵方向が不安定である。
本研究では、最適輸送(OT)のレンズによる表現ステアリング(英語版)を見て、標準差分ステアリングが同一の共分散を持つ2つの非モダルガウス分布の間のOTマップと暗黙的に対応し、大域的な変換をもたらすことを述べる。
この制限的な仮定を緩和するために、理論的にはソースとターゲットの表現をガウス混合モデルとしてモデル化し、定式化ステアリングを意味的潜在クラスタ間の離散OT問題としてモデル化する。
得られた輸送計画から、バリ中心射影による明示的で入力依存のステアリングマップを導出し、スムーズでカーネル重み付けされたクラスタレベルのシフトを生成する。
本稿では,この手法をCHaRS(Concept Heterogeneity-aware Representation Steering)と呼ぶ。
実験により,CHaRSはグローバルステアリングよりも効果的に行動制御を行うことが示された。
関連論文リスト
- ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment [49.68063561145927]
活性化ステアリングのための統一常微分方程式(ODE)に基づく理論的枠組みを提案する。
本稿では,バリア関数によって誘導されるODEベースのステアリングの一種であるODESteerを紹介する。
最先端のアクティベーションステアリング手法と比較すると、ODESteerは一貫した経験的改善を実現している。
論文 参考訳(メタデータ) (2026-02-19T17:13:44Z) - Faithful Bi-Directional Model Steering via Distribution Matching and Distributed Interchange Interventions [37.08071497197165]
インターベンションベースのモデルステアリングは、プロンプトと微調整のための軽量で解釈可能な代替手段を提供する。
本研究では,分散アライメント探索の原理に基づいて,新しいステアリング手法である概念DASを提案する。
概念DASは必ずしも選好最適化法より優れるわけではないが、モデルスケールの増大により恩恵を受ける可能性があることを示す。
論文 参考訳(メタデータ) (2026-02-05T02:51:00Z) - UniRoute: Unified Routing Mixture-of-Experts for Modality-Adaptive Remote Sensing Change Detection [6.323154336421137]
UniRouteは、モダリティ適応学習のための統一されたフレームワークである。
グローバルな意味的文脈から局所空間の詳細を遠ざけるための適応受容場ルーティングMOEモジュールを提案する。
また,データスカースな異種環境下での統一学習を安定化する一貫性を考慮した自己蒸留手法を提案する。
論文 参考訳(メタデータ) (2026-01-21T09:21:25Z) - Toward Stable Semi-Supervised Remote Sensing Segmentation via Co-Guidance and Co-Fusion [31.189038928192648]
Co2Sは半教師付きRSセグメンテーションフレームワークで、ビジョン言語モデルと自己教師型モデルとを融合する。
テキスト埋め込みと学習可能なクエリを利用した,明示的でシンプルなセマンティックコガイダンス機構が導入された。
6つの一般的なデータセットに対する実験は,提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2025-12-28T18:24:19Z) - DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving [65.7087560656003]
エンドツーエンドの自動運転のための生成拡散モデルは、しばしばモード崩壊に悩まされる。
強化学習を利用して低品質モードを制約し,優れた軌道探索を行うDiffusionDriveV2を提案する。
これにより、そのコアであるガウス混合モデル固有の多重モード性を維持しながら、全体的な出力品質が大幅に向上する。
論文 参考訳(メタデータ) (2025-12-08T17:29:52Z) - Equivariant Goal Conditioned Contrastive Reinforcement Learning [5.019456977535218]
Contrastive Reinforcement Learning (CRL)は、ラベルのない相互作用から有用な構造化表現を抽出するための有望なフレームワークを提供する。
等変制約を用いた潜在空間をさらに構造化する等変CRLを提案する。
我々のアプローチは、状態ベースと画像ベースの両方の設定において、さまざまなシミュレーションタスクにおいて、強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-07-22T01:13:45Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - Mitigating Both Covariate and Conditional Shift for Domain
Generalization [14.91361835243516]
ドメイン一般化(Domain Generalization、DG)は、複数のソースドメインのモデルを学習することを目的としており、モデルが未確認のターゲットドメインに適切に一般化できることを願っている。
本稿では,視覚的アライメントと不確実性誘導的信念アンサンブル(VAUE)による分布変化に対処する新しいDG手法を提案する。
論文 参考訳(メタデータ) (2022-09-17T05:13:56Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。