論文の概要: Visualizing token importance for black-box language models
- arxiv url: http://arxiv.org/abs/2512.11573v1
- Date: Fri, 12 Dec 2025 14:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.79008
- Title: Visualizing token importance for black-box language models
- Title(参考訳): ブラックボックス言語モデルにおけるトークンの重要性の可視化
- Authors: Paulius Rauba, Qiyao Wei, Mihaela van der Schaar,
- Abstract要約: 我々は,ブラックボックスの大規模言語モデル(LLM)を監査して,本運用環境にデプロイした場合に確実に動作させるという課題を考察する。
本稿では,各入力トークンに対する言語モデルの出力の感度を評価するために,分布ベース感性分析(DBSA)を提案する。
- 参考スコア(独自算出の注目度): 48.747801442240565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of auditing black-box large language models (LLMs) to ensure they behave reliably when deployed in production settings, particularly in high-stakes domains such as legal, medical, and regulatory compliance. Existing approaches for LLM auditing often focus on isolated aspects of model behavior, such as detecting specific biases or evaluating fairness. We are interested in a more general question -- can we understand how the outputs of black-box LLMs depend on each input token? There is a critical need to have such tools in real-world applications that rely on inaccessible API endpoints to language models. However, this is a highly non-trivial problem, as LLMs are stochastic functions (i.e. two outputs will be different by chance), while computing prompt-level gradients to approximate input sensitivity is infeasible. To address this, we propose Distribution-Based Sensitivity Analysis (DBSA), a lightweight model-agnostic procedure to evaluate the sensitivity of the output of a language model for each input token, without making any distributional assumptions about the LLM. DBSA is developed as a practical tool for practitioners, enabling quick, plug-and-play visual exploration of LLMs reliance on specific input tokens. Through illustrative examples, we demonstrate how DBSA can enable users to inspect LLM inputs and find sensitivities that may be overlooked by existing LLM interpretability methods.
- Abstract(参考訳): 我々は,ブラックボックスの大規模言語モデル(LLM)を監査することで,特に法的,医療的,規制的コンプライアンスといった高度な領域において,生産環境に展開するときに確実に動作させることが課題であると考えている。
LLM監査の既存のアプローチは、特定のバイアスの検出や公平さの評価など、モデル行動の独立した側面に重点を置いていることが多い。
私たちは、より一般的な質問に興味があります -- ブラックボックスのLSMの出力が各入力トークンにどのように依存するかを理解できますか?
言語モデルへのアクセス不能なAPIエンドポイントに依存する現実世界のアプリケーションには、そのようなツールを持つことが不可欠である。
しかし、LLMは確率関数(すなわち2つの出力は偶然に異なる)であるため、これは非常に自明な問題であり、入力感度を近似するプロンプトレベルの勾配を計算することは不可能である。
そこで本研究では,各入力トークンに対する言語モデルの出力の感度を評価する軽量なモデル非依存手法である分散ベース感度解析(DBSA)を提案する。
DBSAは実践者のための実用的なツールとして開発されており、特定の入力トークンに依存するLCMを素早くプラグ&プレイで視覚的に探索することができる。
具体例を通して,DBSA がユーザに対して LLM の入力を検査し,既存の LLM 解釈可能性法で見落とされうる感性を見出すことを実証する。
関連論文リスト
- Exploring LLM-based Frameworks for Fault Diagnosis [2.2562573557834686]
大規模言語モデル(LLM)に基づくシステムは,センサリッチ産業環境における自律型健康モニタリングの新たな機会を提供する。
本研究では,LLMがセンサデータから直接障害を検出し,分類すると同時に,自然言語の推論を通じて本質的に説明可能なアウトプットを生成する可能性について検討する。
論文 参考訳(メタデータ) (2025-09-27T04:53:15Z) - Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation [59.40886078302025]
マルチモーダル大規模言語モデル(MLLM)は、視覚入力と自然言語出力の整合性を示す。
しかし、生成したトークンが視覚的モダリティに依存する範囲は、いまだに理解されていない。
MLLMにおける自己回帰トークン生成を説明するための軽量なブラックボックスフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T15:38:42Z) - Learned Hallucination Detection in Black-Box LLMs using Token-level Entropy Production Rate [0.19676943624884313]
大きな言語モデル(LLM)における幻覚は、質問回答タスクの出力が現実世界の信頼性を著しく損なう。
本稿では,データアクセスに制限のあるシナリオに特化して設計された,ロバストでワンショットの幻覚検出のための応用手法を提案する。
提案手法は,非グリーディ復号時に生成したこれらのログ確率から直接不確実性指標を導出する。
論文 参考訳(メタデータ) (2025-09-01T13:34:21Z) - Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。
非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - LLM4VV: Exploring LLM-as-a-Judge for Validation and Verification Testsuites [6.796136787585992]
大規模言語モデル(LLM)は進化し、ソフトウェア開発のランドスケープに大きな革命をもたらしています。
本稿では,ディレクティブプログラミングモデルのコンパイラ実装を評価するために使用されるテストの判定について考察する。
論文 参考訳(メタデータ) (2024-08-21T15:54:17Z) - $\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。
我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。