論文の概要: SEER: Self-Explainability Enhancement of Large Language Models' Representations
- arxiv url: http://arxiv.org/abs/2502.05242v1
- Date: Fri, 07 Feb 2025 13:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:36:33.995252
- Title: SEER: Self-Explainability Enhancement of Large Language Models' Representations
- Title(参考訳): SEER: 大規模言語モデルの表現の自己説明可能性向上
- Authors: Guanxu Chen, Dongrui Liu, Tao Luo, Jing Shao,
- Abstract要約: 大規模言語モデル(LLM)を説明する自己説明法SEERを提案する。
本稿では、同じ概念を集約し、表現空間における異なる概念を分離することにより、LLMの説明可能性を高める自己説明法SEERを提案する。
自己説明型LLMが説明可能性と性能を一貫した改善を達成するための信頼性関連タスクへのSEERの適用について紹介する。
- 参考スコア(独自算出の注目度): 18.840860385644316
- License:
- Abstract: Explaining the hidden representations of Large Language Models (LLMs) is a perspective to understand LLMs' underlying inference logic and improve their reliability in application scenarios. However, previous methods introduce external ''black-box'' modules to explain ''black-box'' LLMs, increasing the potential uncertainty and failing to provide faithful explanations. In this paper, we propose a self-explaining method SEER, enhancing LLMs' explainability by aggregating the same concept and disentangling the different concepts in the representation space. In this way, SEER provides faithful explanations carried by representations synchronously with the LLMs' output. Additionally, we showcase the applications of SEER on trustworthiness-related tasks (e.g., the safety risks classification and detoxification tasks), where self-explained LLMs achieve consistent improvement in explainability and performance. More crucially, we theoretically analyze the improvement of SEER on LLMs' generalization ability through optimal transport theory.
- Abstract(参考訳): LLM(Large Language Models)の隠れ表現を説明することは、LLMの基盤となる推論ロジックを理解し、アプリケーションのシナリオにおける信頼性を向上させるための視点である。
しかし、従来の手法では ''black-box' の外部モジュールを導入して ''black-box' の LLM を説明し、潜在的な不確実性を増大させ、忠実な説明を提供しない。
本稿では、同じ概念を集約し、表現空間における異なる概念を分離することにより、LLMの説明可能性を高める自己説明法SEERを提案する。
このように、SEER は LLM の出力と同期的に表現によって実行される忠実な説明を提供する。
さらに,SEERの信頼性関連タスク(例えば,安全リスク分類と解毒タスク)への適用について紹介し,自己説明型LCMが説明可能性と性能を一貫した改善を実現している。
さらに重要なことは、最適輸送理論により、LLMの一般化能力に関するSEERの改善を理論的に分析する。
関連論文リスト
- Towards Uncovering How Large Language Model Works: An Explainability Perspective [38.07611356855978]
大規模言語モデル(LLM)は言語タスクのブレークスルーをもたらしたが、その顕著な一般化と推論能力を実現する内部メカニズムは不透明のままである。
本稿では,LLM機能の基礎となるメカニズムを,説明可能性のレンズを通して明らかにすることを目的とする。
論文 参考訳(メタデータ) (2024-02-16T13:46:06Z) - AbsInstruct: Eliciting Abstraction Ability from LLMs through Explanation Tuning with Plausibility Estimation [60.40409210088717]
抽象化能力は人間の知性において不可欠であり、NLP研究における様々なタスクにも有用である。
既存の研究によると、LLMは抽象能力に欠けており、その改善方法はまだ解明されていない。
本稿では,命令チューニングによるLLMの抽象化能力を向上するフレームワークAbsInstructを設計する。
論文 参考訳(メタデータ) (2024-02-16T12:47:11Z) - FaithLM: Towards Faithful Explanations for Large Language Models [67.29893340289779]
大きな言語モデル(LLM)は、内部知識と推論能力を活用することで複雑なタスクに対処するのに熟練している。
これらのモデルのブラックボックスの性質は、意思決定プロセスを説明するタスクを複雑にしている。
自然言語 (NL) による LLM の決定を説明するために FaithLM を紹介した。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models [26.11408084129897]
大規模言語モデル(LLM)は、いくつかの自然言語処理(NLP)アプリケーションのための強力なツールとしてデプロイされる。
最近の研究は、現代のLSMが自己説明(Ses)を生成できることを示している。
LLMが生成するSEの忠実度と妥当性の両立を論じる。
論文 参考訳(メタデータ) (2024-02-07T06:32:50Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - In-Context Explainers: Harnessing LLMs for Explaining Black Box Models [28.396104334980492]
大規模言語モデル(LLM)は、機械翻訳、常識推論、言語理解といった複雑なタスクにおいて、例外的な機能を示している。
このような多様なタスクにおけるLLMの適応性の主要な理由の1つは、インコンテキスト学習(ICL)能力である。
本稿では,LLMのICL機能を利用して,他の予測モデルによる予測を説明する新しい3つの手法,In-Context Explainersを提案する。
論文 参考訳(メタデータ) (2023-10-09T15:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。