論文の概要: SwordBench: Evaluating Orthogonality of Steering Image Representations
- arxiv url: http://arxiv.org/abs/2605.16372v1
- Date: Sun, 10 May 2026 14:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.300357
- Title: SwordBench: Evaluating Orthogonality of Steering Image Representations
- Title(参考訳): SwordBench: ステアリング画像表現の直交性の評価
- Authors: Vladimir Zaigrajew, Dawid Pludowski, Hubert Baniecki, Przemyslaw Biecek,
- Abstract要約: SwordBenchは、視覚モデルのイメージ表現をステアリングするためのベンチマークである。
クロスコンセプトロバストネスは、概念検出性能の安定性を測定する。
副次的損傷は 下流タスクの モデル性能に不注意に 影響を及ぼすかどうかを定量化する
- 参考スコア(独自算出の注目度): 15.251435211656206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Steering or intervening on model representations at inference time to correct predictions is essential for AI interpretability and safety, yet existing evaluation protocols are limited to ambiguous language modeling tasks. To address this gap, we introduce SwordBench, a benchmark for steering image representations of vision models across multiple backbones and concept removal tasks. Beyond a unified benchmarking suite, we propose new evaluation notions that uncover the second-order effects of orthogonalization among concept activation vectors for pragmatic steering. Specifically, cross-concept robustness measures the stability of concept detection performance across inputs orthogonalized against alternative concepts, and collateral damage quantifies whether steering inadvertently affects model performance on a downstream task for inputs lacking the bias. We find that although a linear support vector machine exhibits superior separability and orthogonality, it fails to achieve zero collateral damage, often trailing sparse autoencoders. In simpler regimes, both standard baselines and optimization-based methods fail to achieve perfect steering. The source code will be made available soon on GitHub.
- Abstract(参考訳): AIの解釈可能性と安全性には,推論時にモデル表現をステアリングあるいは介入することが不可欠だが,既存の評価プロトコルはあいまいな言語モデリングタスクに限定されている。
このギャップに対処するために、複数のバックボーンと概念除去タスクにまたがるビジョンモデルのイメージ表現をステアリングするためのベンチマークであるSwordBenchを紹介する。
統合ベンチマークスイートの他に,実用的ステアリングのための概念アクティベーションベクトル間の直交化の2次効果を明らかにする新しい評価概念を提案する。
特に、クロスコンセプトロバストネスは、オルタナティブな概念に対して直交する入力間の概念検出性能の安定性を測定し、副次的ダメージは、バイアスを欠いた入力に対する下流タスクにおいて、操舵がモデル性能に不注意に影響を及ぼすかどうかを定量化する。
線形支持ベクトルマシンは、分離性や直交性に優れるが、しばしばスパースオートエンコーダに追従して、左右方向の損傷をゼロにすることができない。
単純なレシエーションでは、標準ベースラインと最適化ベースの手法の両方が完全なステアリングを達成できない。
ソースコードは近いうちにGitHubで公開される予定だ。
関連論文リスト
- One-shot Optimized Steering Vector for Hallucination Mitigation for VLMs [8.089908150148554]
視覚言語モデル(VLM)は、マルチモーダルタスクにおいて高いパフォーマンスを達成するが、まだ幻覚や安全関連の障害に悩まされている。
textbf1-shot textbfSteering with textbfGenerative textbfAnchorは、単一の最適化インスタンスでモデル性能を改善するための、入力に依存しないフレームワークである。
論文 参考訳(メタデータ) (2026-01-30T14:47:59Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Concept-SAE: Active Causal Probing of Visual Model Behavior [10.346577706023139]
Concept-SAEは、概念トークンを意味的に基礎づけるフレームワークである。
まず、我々の二重スーパービジョンアプローチが、著しく忠実で空間的に局在したトークンを生み出すことを定量的に示す。
この検証された忠実さは,(1)内部概念と直接介入による予測の因果関係を探索し,(2)特定の層に敵対的脆弱性を体系的に局在させることにより,モデルの障害モードを探索する,という2つの重要な応用を可能にする。
論文 参考訳(メタデータ) (2025-09-26T07:51:03Z) - AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。