論文の概要: Explaining Black-box Language Models with Knowledge Probing Systems: A Post-hoc Explanation Perspective
- arxiv url: http://arxiv.org/abs/2508.16969v1
- Date: Sat, 23 Aug 2025 09:41:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.273546
- Title: Explaining Black-box Language Models with Knowledge Probing Systems: A Post-hoc Explanation Perspective
- Title(参考訳): 知識探索システムを用いたブラックボックス言語モデルの解説:ポストホック説明の視点から
- Authors: Yunxiao Zhao, Hao Xu, Zhiqiang Wang, Xiaoli Li, Jiye Liang, Ru Li,
- Abstract要約: 事前訓練された言語モデル(PLM)は、大量のラベルのないデータに基づいて訓練されるが、顕著な推論スキルを示す。
本稿では,KnowProbと呼ばれる知識誘導型探索手法をポストホックな説明法で提案する。
- 参考スコア(独自算出の注目度): 43.267605279424686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained Language Models (PLMs) are trained on large amounts of unlabeled data, yet they exhibit remarkable reasoning skills. However, the trustworthiness challenges posed by these black-box models have become increasingly evident in recent years. To alleviate this problem, this paper proposes a novel Knowledge-guided Probing approach called KnowProb in a post-hoc explanation way, which aims to probe whether black-box PLMs understand implicit knowledge beyond the given text, rather than focusing only on the surface level content of the text. We provide six potential explanations derived from the underlying content of the given text, including three knowledge-based understanding and three association-based reasoning. In experiments, we validate that current small-scale (or large-scale) PLMs only learn a single distribution of representation, and still face significant challenges in capturing the hidden knowledge behind a given text. Furthermore, we demonstrate that our proposed approach is effective for identifying the limitations of existing black-box models from multiple probing perspectives, which facilitates researchers to promote the study of detecting black-box models in an explainable way.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、大量のラベルのないデータに基づいて訓練されるが、顕著な推論スキルを示す。
しかし、これらのブラックボックスモデルによって引き起こされる信頼性の課題は、近年ますます顕著になっている。
この問題を軽減するために,本論文では,テキストの表面レベルの内容のみに焦点をあてるのではなく,ブラックボックスのPLMが与えられたテキスト以外の暗黙的な知識を理解するかどうかを探索する,KnowProbと呼ばれる新しい知識誘導型探索手法を提案する。
3つの知識に基づく理解と3つの連想に基づく推論を含む、与えられたテキストの基本的な内容から導かれる6つの潜在的説明を提供する。
実験では、現在の小規模(あるいは大規模な)PLMは、単一の表現分布しか学習せず、与えられたテキストの背後にある隠れた知識を捕捉する上でも重大な課題に直面していることを検証した。
さらに,提案手法は,既存のブラックボックスモデルの限界を複数の探索的視点から同定する上で有効であることを示す。
関連論文リスト
- Investigating the Duality of Interpretability and Explainability in Machine Learning [2.8311451575532156]
複雑な「ブラックボックス」モデルは異常な予測性能を示す。
その本質的に不透明な性質は、透明性と解釈可能性に関する懸念を提起する。
本質的に解釈可能なモデルを開発するのではなく、これらのモデルを説明することに注力しています。
論文 参考訳(メタデータ) (2025-03-27T10:48:40Z) - Knowledge Boundary of Large Language Models: A Survey [75.67848187449418]
大規模言語モデル(LLM)はパラメータに膨大な量の知識を格納するが、特定の知識の記憶と利用に制限がある。
これは、LLMの知識境界を理解するための重要な必要性を強調している。
本稿では,LLM知識境界の包括的定義を提案し,知識を4つの異なるタイプに分類する形式化された分類法を提案する。
論文 参考訳(メタデータ) (2024-12-17T02:14:02Z) - Does It Make Sense to Explain a Black Box With Another Black Box? [5.377278489623063]
文学における反現実的説明法の主な2つの家系、すなわち、(a)単語の追加、削除、置換によってターゲットを摂動させる非透明な方法、および(b)対象文書をその後に摂動が行われる非解釈可能な空間に投影するエンフォパク的アプローチである。
我々の実証的な証拠は、不透明なアプローチが、偽ニュースの検出や感情分析のような下流アプリケーションにとって過大なスキルであることを示している。
論文 参考訳(メタデータ) (2024-04-23T11:40:30Z) - A Survey of Explainable Knowledge Tracing [14.472784840283099]
本稿では,KTアルゴリズムの解釈可能性について詳細に解析する。
説明可能な知識追跡のための現在の評価方法が不足している。
本稿では,教育関係者の視点から評価手法について考察する。
論文 参考訳(メタデータ) (2024-03-12T03:17:59Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Towards LLM-guided Causal Explainability for Black-box Text Classifiers [16.36602400590088]
我々は,近年の大規模言語モデルにおける命令追従とテキスト理解機能を活用して,因果的説明可能性を高めることを目指している。
提案する3ステップパイプラインは,既製のLCMを用いて,入力テキスト中の潜時的・未観測な特徴を識別する。
我々は,複数のNLPテキスト分類データセットを用いたパイプライン実験を行い,興味深い,有望な結果を示した。
論文 参考訳(メタデータ) (2023-09-23T11:22:28Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - Interpretation of Black Box NLP Models: A Survey [0.0]
摂動に基づくポストホックの説明は、機械学習モデルの構築後に解釈するために広く使われているアプローチである。
本稿では,中心極限定理に基づく仮説テストフレームワークを用いて,解析結果の安定性を保証するのに必要な摂動点数を決定することを提案する。
論文 参考訳(メタデータ) (2022-03-31T14:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。