論文の概要: White-Box Sensitivity Auditing with Steering Vectors
- arxiv url: http://arxiv.org/abs/2601.16398v1
- Date: Fri, 23 Jan 2026 02:03:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.507881
- Title: White-Box Sensitivity Auditing with Steering Vectors
- Title(参考訳): ステアリングベクトルを用いたホワイトボックス感度評価
- Authors: Hannah Cyberey, Yangfeng Ji, David Evans,
- Abstract要約: 言語(LLM)のためのホワイトボックス感度監査フレームワークを提案する。
本手法は,タスクに対するモデルの意図する機能に関連する重要な概念を操作することで,内部感度試験を行う。
本手法は,モデル予測における保護属性へのかなりの依存を連続的に明らかにする。
- 参考スコア(独自算出の注目度): 14.807513989606647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Algorithmic audits are essential tools for examining systems for properties required by regulators or desired by operators. Current audits of large language models (LLMs) primarily rely on black-box evaluations that assess model behavior only through input-output testing. These methods are limited to tests constructed in the input space, often generated by heuristics. In addition, many socially relevant model properties (e.g., gender bias) are abstract and difficult to measure through text-based inputs alone. To address these limitations, we propose a white-box sensitivity auditing framework for LLMs that leverages activation steering to conduct more rigorous assessments through model internals. Our auditing method conducts internal sensitivity tests by manipulating key concepts relevant to the model's intended function for the task. We demonstrate its application to bias audits in four simulated high-stakes LLM decision tasks. Our method consistently reveals substantial dependence on protected attributes in model predictions, even in settings where standard black-box evaluations suggest little or no bias. Our code is openly available at https://github.com/hannahxchen/llm-steering-audit
- Abstract(参考訳): アルゴリズム監査は、規制当局が要求するプロパティやオペレーターが要求するプロパティのシステムを調べるための必須のツールである。
大規模言語モデル(LLM)の現在の監査は、主に入力出力テストによってのみモデル動作を評価するブラックボックス評価に依存している。
これらの手法は入力空間で構築されたテストに限られており、しばしばヒューリスティックスによって生成される。
さらに、社会的に関係のある多くのモデル特性(例えば、性別バイアス)は抽象的であり、テキストベースの入力だけで測定することは困難である。
これらの制約に対処するために,活性化ステアリングを利用してモデル内装によるより厳密な評価を行うLCMのためのホワイトボックス感度監査フレームワークを提案する。
本手法は,タスクに対するモデルの意図する機能に関連する重要な概念を操作することで,内部感度試験を行う。
シミュレーションされた4つのLCM決定タスクにおけるバイアス監査への応用を実証する。
提案手法は,標準のブラックボックス評価がバイアスをほとんどあるいは全く示さない設定であっても,モデル予測における保護属性へのかなりの依存を明らかにしている。
私たちのコードはhttps://github.com/hannahxchen/llm-steering-auditで公開されています。
関連論文リスト
- Visualizing token importance for black-box language models [48.747801442240565]
我々は,ブラックボックスの大規模言語モデル(LLM)を監査して,本運用環境にデプロイした場合に確実に動作させるという課題を考察する。
本稿では,各入力トークンに対する言語モデルの出力の感度を評価するために,分布ベース感性分析(DBSA)を提案する。
論文 参考訳(メタデータ) (2025-12-12T14:01:43Z) - Auditing Black-Box LLM APIs with a Rank-Based Uniformity Test [24.393978712663618]
APIプロバイダは、コスト削減やモデル動作の不正な変更のために、量子化または微調整の亜種を慎重に提供することができる。
そこで我々は,ブラックボックスLLMの挙動等式を局所的に展開した認証モデルに検証できるランクベース均一性試験を提案する。
我々は、量子化、有害な微調整、脱獄プロンプト、完全なモデル置換など、さまざまな脅威シナリオに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-06-08T03:00:31Z) - FairSteer: Inference Time Debiasing for LLMs with Dynamic Activation Steering [12.65682270967556]
大規模言語モデル(LLM)は、トレーニングコーパスからバイアスを捉える傾向があり、潜在的にネガティブな社会的影響をもたらす。
提案するFairSteerは,カスタマイズしたプロンプト設計やモデル再訓練を必要とせずに,新しい推論時脱バイアスフレームワークである。
論文 参考訳(メタデータ) (2025-04-20T04:57:00Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。