論文の概要: LAMP: Extracting Locally Linear Decision Surfaces from LLM World Models
- arxiv url: http://arxiv.org/abs/2505.11772v2
- Date: Wed, 21 May 2025 03:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.613676
- Title: LAMP: Extracting Locally Linear Decision Surfaces from LLM World Models
- Title(参考訳): LAMP:LLM世界モデルから局所線形決定面を抽出する
- Authors: Ryan Chen, Youngmin Ko, Zeyu Zhang, Catherine Cho, Sunny Chung, Mauro Giuffré, Dennis L. Shung, Bradly C. Stadie,
- Abstract要約: 我々は,ブラックボックス言語モデルの決定面に光を照射するLAMPを紹介する。
LAMPは、モデル自身の自己報告された説明を座標系として扱う。
どの要因がモデルの判断を決定づけるか、そしてどの程度の量によって明らかになる。
- 参考スコア(独自算出の注目度): 4.256406558506658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LAMP (Linear Attribution Mapping Probe), a method that shines light onto a black-box language model's decision surface and studies how reliably a model maps its stated reasons to its predictions through a locally linear model approximating the decision surface. LAMP treats the model's own self-reported explanations as a coordinate system and fits a locally linear surrogate that links those weights to the model's output. By doing so, it reveals which stated factors steer the model's decisions, and by how much. We apply LAMP to three tasks: sentiment analysis, controversial-topic detection, and safety-prompt auditing. Across these tasks, LAMP reveals that many LLMs exhibit locally linear decision landscapes. In addition, these surfaces correlate with human judgments on explanation quality and, on a clinical case-file data set, aligns with expert assessments. Since LAMP operates without requiring access to model gradients, logits, or internal activations, it serves as a practical and lightweight framework for auditing proprietary language models, and enabling assessment of whether a model behaves consistently with the explanations it provides.
- Abstract(参考訳): LAMP(Linear Attribution Mapping Probe)は,ブラックボックス言語モデルの決定面に光を照射する手法であり,決定面を近似した局所線形モデルを用いて,モデルがその理由をその予測に確実にマッピングする手法である。
LAMPは、モデル自身の自己報告された説明を座標系として扱い、それらの重みをモデルの出力に結びつける局所線型サロゲートに適合する。
そうすることによって、どの要因がモデルの判断を決定づけるか、そしてどれだけの量で明らかになる。
感情分析,物議を醸すトピック検出,安全性向上監査の3つの課題にLAMPを適用した。
これらのタスク全体で、LAMPは、多くのLLMが局所的な線形決定のランドスケープを示すことを示した。
さらに、これらの表面は、説明品質に関する人間の判断と相関し、臨床ケースファイルデータセットでは、専門家の評価と一致している。
LAMPはモデル勾配やロジット、内部アクティベーションへのアクセスを必要としないため、プロプライエタリな言語モデルを監査するための実用的で軽量なフレームワークとして機能し、モデルが提供する説明と一貫して振る舞うかどうかを評価することができる。
関連論文リスト
- MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。
MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。
LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文 参考訳(メタデータ) (2025-03-26T11:09:21Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - MASALA: Model-Agnostic Surrogate Explanations by Locality Adaptation [3.587367153279351]
既存のローカル説明可能なAI(XAI)メソッドは、与えられた入力インスタンスの近傍にある入力空間の領域を選択し、より単純で解釈可能な代理モデルを用いてモデルの振る舞いを近似する。
そこで本研究では,各インスタンスごとの衝突モデル行動の適切な局所領域を自動決定する手法であるMASALAを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:26:45Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - A Hypothesis-Driven Framework for the Analysis of Self-Rationalising
Models [0.8702432681310401]
我々はベイジアンネットワークを用いて、タスクの解決方法に関する仮説を実装している。
結果のモデルはGPT-3.5と強い類似性は示さない。
今後の作業において、LCM決定をよりよく近似するフレームワークの可能性だけでなく、これの意味についても論じる。
論文 参考訳(メタデータ) (2024-02-07T12:26:12Z) - Patchscopes: A Unifying Framework for Inspecting Hidden Representations of Language Models [24.817659341654654]
我々は、Patchscopesと呼ばれるフレームワークを導入し、LLMの計算に関する幅広い疑問にどのように答えられるかを示す。
本稿では,従来の表現を語彙空間に投影し,LLMに介入する手法の多くを,このフレームワークの例とみなすことができることを示す。
Patchscopesは、事前検査技術を統一するだけでなく、より有能なモデルを使用してより小さなモデルの表現を説明する、マルチホップ推論エラー修正などの新しい可能性も開放している。
論文 参考訳(メタデータ) (2024-01-11T18:33:48Z) - VAE-LIME: Deep Generative Model Based Approach for Local Data-Driven
Model Interpretability Applied to the Ironmaking Industry [70.10343492784465]
モデル予測だけでなく、その解釈可能性も、プロセスエンジニアに公開する必要があります。
LIMEに基づくモデルに依存しない局所的解釈可能性ソリューションが最近出現し、元の手法が改良された。
本稿では, 燃焼炉で生成する高温金属の温度を推定するデータ駆動型モデルの局所的解釈可能性に関する新しいアプローチ, VAE-LIMEを提案する。
論文 参考訳(メタデータ) (2020-07-15T07:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。