論文の概要: Deep Learning-based Method for Expressing Knowledge Boundary of Black-Box LLM
- arxiv url: http://arxiv.org/abs/2602.10801v1
- Date: Wed, 11 Feb 2026 12:42:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.88678
- Title: Deep Learning-based Method for Expressing Knowledge Boundary of Black-Box LLM
- Title(参考訳): 深層学習を用いたブラックボックスLLMの知識境界表現法
- Authors: Haotian Sheng, Heyong Wang, Ming Hong, Hongman He, Junqiu Liu,
- Abstract要約: 大規模言語モデル(LLM)は目覚ましい成功を収めているが、コンテンツ生成の歪み(幻覚)の出現は、その実践的応用を制限している。
本稿では,ブラックボックスLLMの知識境界を表現する深層学習に基づくLSCL(LLM-Supervised Confidence Learning)を提案する。
- 参考スコア(独自算出の注目度): 5.711910452650628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success, however, the emergence of content generation distortion (hallucination) limits their practical applications. The core cause of hallucination lies in LLMs' lack of awareness regarding their stored internal knowledge, preventing them from expressing their knowledge state on questions beyond their internal knowledge boundaries, as humans do. However, existing research on knowledge boundary expression primarily focuses on white-box LLMs, leaving methods suitable for black-box LLMs which offer only API access without revealing internal parameters-largely unexplored. Against this backdrop, this paper proposes LSCL (LLM-Supervised Confidence Learning), a deep learning-based method for expressing the knowledge boundaries of black-box LLMs. Based on the knowledge distillation framework, this method designs a deep learning model. Taking the input question, output answer, and token probability from a black-box LLM as inputs, it constructs a mapping between the inputs and the model' internal knowledge state, enabling the quantification and expression of the black-box LLM' knowledge boundaries. Experiments conducted on diverse public datasets and with multiple prominent black-box LLMs demonstrate that LSCL effectively assists black-box LLMs in accurately expressing their knowledge boundaries. It significantly outperforms existing baseline models on metrics such as accuracy and recall rate. Furthermore, considering scenarios where some black-box LLMs do not support access to token probability, an adaptive alternative method is proposed. The performance of this alternative approach is close to that of LSCL and surpasses baseline models.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい成功を収めているが、コンテンツ生成の歪み(幻覚)の出現は、その実践的応用を制限している。
幻覚の中核的な原因は、LLMが記憶されている内部知識に対する認識の欠如にある。
しかし、知識境界表現に関する既存の研究は、主にホワイトボックスのLSMに焦点をあてており、内部パラメーターを明らかにせずにAPIアクセスのみを提供するブラックボックスのLSMに適した方法を残している。
そこで本研究では,ブラックボックスLLMの知識境界を表現する深層学習手法であるLSCL(LLM-Supervised Confidence Learning)を提案する。
本手法は知識蒸留の枠組みに基づいて深層学習モデルを設計する。
入力質問、出力応答、トークン確率を入力として、入力とモデルの内部知識状態の間のマッピングを構築し、ブラックボックスLSMの知識境界の定量化と表現を可能にする。
多様な公開データセットと複数の著名なブラックボックスLSMを用いて行われた実験は、LSCLがブラックボックスLSMを効果的に支援し、その知識境界を正確に表現することを示した。
精度やリコール率など、既存のベースラインモデルよりも大幅に優れています。
さらに,いくつかのブラックボックス LLM がトークン確率のアクセスをサポートしていないシナリオを考慮し,適応的な代替手法を提案する。
この代替手法の性能はLSCLに近く、ベースラインモデルを上回る。
関連論文リスト
- Black-Box Membership Inference Attack for LVLMs via Prior Knowledge-Calibrated Memory Probing [25.68362027128315]
大規模視覚言語モデル(LVLM)は、視覚的およびテキスト的データの膨大なコーパスに関する広範なトレーニングからその能力を導き出した。
LVLMのための最初のブラックボックスMIAフレームワークを提案する。
提案手法は,純粋にブラックボックス設定でLVLMのトレーニングデータを効果的に識別し,グレーボックス法やホワイトボックス法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-11-03T13:16:30Z) - Are Large Language Models Reliable AI Scientists? Assessing Reverse-Engineering of Black-Box Systems [16.995977750934887]
大規模言語モデル(LLM)は、受動的に観測されたデータとアクティブに収集されたデータからブラックボックス関数を特定することを学ぶ。
LLMは観測結果から情報を抽出できず、ベイズ推定の理想に劣る性能台地に到達する。
一方のLSMから他方のLSMへの介入データを提供することで、この改善が効果的な介入のプロセスへの関与の結果であることを示す。
論文 参考訳(メタデータ) (2025-05-23T14:37:36Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - SEUF: Is Unlearning One Expert Enough for Mixture-of-Experts LLMs? [35.237427998489785]
我々は,Mixture-of-Experts (MoE) LLMのためのSEUF(Selected-Expert Unlearning Framework)を提案する。
専門家の帰属を通じて、未学習は特定の知識に対する最も活発な専門家に集中する。
SEUFは様々な標準のアンラーニングアルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2024-11-27T22:46:08Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - Augmented Large Language Models with Parametric Knowledge Guiding [72.71468058502228]
大規模言語モデル(LLM)は、言語理解と生成能力に優れた自然言語処理(NLP)を備えています。
それらのパフォーマンスは、関連するデータへの限られた露出のために専門的な知識を必要とするドメイン固有のタスクに最適であるかもしれない。
本稿では,LLMに関連知識にアクセスするための知識誘導モジュールを組み込んだ新しいPKGフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T15:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。