論文の概要: Token-Level Marginalization for Multi-Label LLM Classifiers
- arxiv url: http://arxiv.org/abs/2511.22312v1
- Date: Thu, 27 Nov 2025 10:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.516478
- Title: Token-Level Marginalization for Multi-Label LLM Classifiers
- Title(参考訳): マルチラベルLLM分類器のためのトークンレベル行列化
- Authors: Anjaneya Praharaj, Jaykumar Kasundra,
- Abstract要約: 3つの新しいトークンレベルの確率推定手法を提案する。
目的は、モデルの解釈可能性と精度を高め、異なる命令チューニングモデル間でこのフレームワークの一般化性を評価することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the critical challenge of deriving interpretable confidence scores from generative language models (LLMs) when applied to multi-label content safety classification. While models like LLaMA Guard are effective for identifying unsafe content and its categories, their generative architecture inherently lacks direct class-level probabilities, which hinders model confidence assessment and performance interpretation. This limitation complicates the setting of dynamic thresholds for content moderation and impedes fine-grained error analysis. This research proposes and evaluates three novel token-level probability estimation approaches to bridge this gap. The aim is to enhance model interpretability and accuracy, and evaluate the generalizability of this framework across different instruction-tuned models. Through extensive experimentation on a synthetically generated, rigorously annotated dataset, it is demonstrated that leveraging token logits significantly improves the interpretability and reliability of generative classifiers, enabling more nuanced content safety moderation.
- Abstract(参考訳): 本稿では,多ラベルコンテンツ安全性分類に適用した場合に,ジェネレーティブ言語モデル(LLM)から解釈可能な信頼スコアを導出する上での課題について述べる。
LLaMA Guardのようなモデルは、安全でないコンテンツとそのカテゴリを特定するのに効果的であるが、生成アーキテクチャは本質的に、モデルの信頼性評価とパフォーマンス解釈を妨げる直接的なクラスレベルの確率を欠いている。
この制限は、コンテンツモデレーションのための動的しきい値の設定を複雑にし、きめ細かいエラー解析を妨げる。
本研究は,このギャップを埋めるための3つの新しいトークンレベルの確率推定手法を提案し,評価する。
目的は、モデルの解釈可能性と精度を高め、異なる命令チューニングモデル間でこのフレームワークの一般化性を評価することである。
合成された厳密な注釈付きデータセット上での広範囲な実験により、トークンロジットの利用により、生成型分類器の解釈可能性や信頼性が大幅に向上し、よりニュアンスなコンテンツ安全性のモデレーションが可能になることが示されている。
関連論文リスト
- LLM-Centric RAG with Multi-Granular Indexing and Confidence Constraints [5.2604064919135896]
本稿では,複雑な知識環境下での検索強化生成において,不十分なカバレッジ,不安定な結果,信頼性の制限といった問題に対処する。
複数粒度メモリインデックスと不確実性推定を統合した信頼度制御法を提案する。
提案手法は,QA精度,検索リコール,ランキング品質,事実整合性において,既存モデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-10-30T23:48:37Z) - Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - Bridging Interpretability and Robustness Using LIME-Guided Model Refinement [0.0]
LIME(Local Interpretable Model-Agnostic Explanations)は、モデルロバスト性を体系的に強化する。
複数のベンチマークデータセットに対する実証的な評価は、LIME誘導の洗練は解釈可能性を改善するだけでなく、敵の摂動に対する耐性を著しく向上し、アウト・オブ・ディストリビューションデータへの一般化を促進することを示している。
論文 参考訳(メタデータ) (2024-12-25T17:32:45Z) - Erasing Conceptual Knowledge from Language Models [24.63143961814566]
概念レベルのアンラーニングに対する原則的アプローチである言語記憶の消去(ELM)を導入する。
ELMは、モデル自身の内省的分類能力によって定義される分布を一致させることで機能する。
ELMのバイオセキュリティ、サイバーセキュリティ、および文学ドメイン消去タスクに対する効果を実証する。
論文 参考訳(メタデータ) (2024-10-03T17:59:30Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。