論文の概要: SEER: Self-Explainability Enhancement of Large Language Models' Representations
- arxiv url: http://arxiv.org/abs/2502.05242v1
- Date: Fri, 07 Feb 2025 13:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 18:57:49.221395
- Title: SEER: Self-Explainability Enhancement of Large Language Models' Representations
- Title(参考訳): SEER: 大規模言語モデルの表現の自己説明可能性向上
- Authors: Guanxu Chen, Dongrui Liu, Tao Luo, Jing Shao,
- Abstract要約: 大規模言語モデル(LLM)を説明する自己説明法SEERを提案する。
本稿では、同じ概念を集約し、表現空間における異なる概念を分離することにより、LLMの説明可能性を高める自己説明法SEERを提案する。
自己説明型LLMが説明可能性と性能を一貫した改善を達成するための信頼性関連タスクへのSEERの適用について紹介する。
- 参考スコア(独自算出の注目度): 18.840860385644316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explaining the hidden representations of Large Language Models (LLMs) is a perspective to understand LLMs' underlying inference logic and improve their reliability in application scenarios. However, previous methods introduce external ''black-box'' modules to explain ''black-box'' LLMs, increasing the potential uncertainty and failing to provide faithful explanations. In this paper, we propose a self-explaining method SEER, enhancing LLMs' explainability by aggregating the same concept and disentangling the different concepts in the representation space. In this way, SEER provides faithful explanations carried by representations synchronously with the LLMs' output. Additionally, we showcase the applications of SEER on trustworthiness-related tasks (e.g., the safety risks classification and detoxification tasks), where self-explained LLMs achieve consistent improvement in explainability and performance. More crucially, we theoretically analyze the improvement of SEER on LLMs' generalization ability through optimal transport theory.
- Abstract(参考訳): LLM(Large Language Models)の隠れ表現を説明することは、LLMの基盤となる推論ロジックを理解し、アプリケーションのシナリオにおける信頼性を向上させるための視点である。
しかし、従来の手法では ''black-box' の外部モジュールを導入して ''black-box' の LLM を説明し、潜在的な不確実性を増大させ、忠実な説明を提供しない。
本稿では、同じ概念を集約し、表現空間における異なる概念を分離することにより、LLMの説明可能性を高める自己説明法SEERを提案する。
このように、SEER は LLM の出力と同期的に表現によって実行される忠実な説明を提供する。
さらに,SEERの信頼性関連タスク(例えば,安全リスク分類と解毒タスク)への適用について紹介し,自己説明型LCMが説明可能性と性能を一貫した改善を実現している。
さらに重要なことは、最適輸送理論により、LLMの一般化能力に関するSEERの改善を理論的に分析する。
関連論文リスト
- LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。
LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文 参考訳(メタデータ) (2025-07-29T02:34:28Z) - Language-Unlocked ViT (LUViT): Empowering Self-Supervised Vision Transformers with LLMs [89.76543013729594]
ビジョントランスフォーマー(ViT)は、視覚のみのタスクのために、Large Language Model (LLM)ブロックと統合することができる。
直接核融合はしばしばLSMのポテンシャルを完全に活用できず、不安定な微調整に悩まされる。
LUViTは、このモダリティミスマッチを相乗的な事前訓練戦略を通じて橋渡しする。
論文 参考訳(メタデータ) (2025-07-01T13:58:21Z) - EMAC+: Embodied Multimodal Agent for Collaborative Planning with VLM+LLM [8.3321872381107]
我々は,LLMとVLMを協調的に統合するEmbodied Multimodal AgentであるEMAC+を紹介する。
既存の方法とは異なり、EMAC+は低レベルの視覚制御タスクを実行するVLMからのリアルタイムフィードバックを使用して、高レベルのテキストプランを動的に洗練する。
EMAC+は、ノイズの多い観察と効率的な学習に対して優れたタスクパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-26T12:34:16Z) - Lightweight Latent Verifiers for Efficient Meta-Generation Strategies [0.5892638927736115]
検証は、ベース大言語モデル(LLM)によって生成された出力の正しさを評価する補助モデルである。
本研究では,LLMの隠れ状態から精度の高い正当性信号を確実に抽出する,新しい軽量検証手法LiLaVeを提案する。
LiLaVeの重要な利点は、従来のLCMベースの検証器が必要とする計算予算のごく一部でしか動作できないことである。
論文 参考訳(メタデータ) (2025-04-23T14:33:20Z) - Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models [50.16340812031201]
我々は,大規模言語モデル (LLM) がベイジアンフレームワークから期待されているように,その信念を更新しないことを示す。
我々は、最適ベイズモデルの予測を模倣するように訓練することで、ベイズ的な推論をLLMに教える。
論文 参考訳(メタデータ) (2025-03-21T20:13:04Z) - Interpreting and Steering LLMs with Mutual Information-based Explanations on Sparse Autoencoders [29.356200147371275]
大きな言語モデル(LLM)は人間のクエリを扱うのに優れていますが、時に欠陥や予期せぬ応答を生成することができます。
特徴解釈と相互情報に基づく目的設計のための固定語彙集合を提案する。
そこで本研究では,学習した機能アクティベーションを,対応する説明に基づいて調整する2つの実行時ステアリング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-21T16:36:42Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Enhancing Reasoning through Process Supervision with Monte Carlo Tree Search [2.1637240640145343]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示している。
LLMの推論能力を改善するために、プロセスの監督は結果の監督よりも優れていることが証明されている。
本研究では,モンテカルロ木探索(MCTS)を用いてLLM自体を用いてプロセス監視データを生成する。
論文 参考訳(メタデータ) (2025-01-02T12:09:17Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - Towards Uncovering How Large Language Model Works: An Explainability Perspective [38.07611356855978]
大規模言語モデル(LLM)は言語タスクのブレークスルーをもたらしたが、その顕著な一般化と推論能力を実現する内部メカニズムは不透明のままである。
本稿では,LLM機能の基礎となるメカニズムを,説明可能性のレンズを通して明らかにすることを目的とする。
論文 参考訳(メタデータ) (2024-02-16T13:46:06Z) - AbsInstruct: Eliciting Abstraction Ability from LLMs through Explanation Tuning with Plausibility Estimation [60.40409210088717]
抽象化能力は人間の知性において不可欠であり、NLP研究における様々なタスクにも有用である。
既存の研究によると、LLMは抽象能力に欠けており、その改善方法はまだ解明されていない。
本稿では,命令チューニングによるLLMの抽象化能力を向上するフレームワークAbsInstructを設計する。
論文 参考訳(メタデータ) (2024-02-16T12:47:11Z) - FaithLM: Towards Faithful Explanations for Large Language Models [67.29893340289779]
大きな言語モデル(LLM)は、内部知識と推論能力を活用することで複雑なタスクに対処するのに熟練している。
これらのモデルのブラックボックスの性質は、意思決定プロセスを説明するタスクを複雑にしている。
自然言語 (NL) による LLM の決定を説明するために FaithLM を紹介した。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models [26.11408084129897]
大規模言語モデル(LLM)は、いくつかの自然言語処理(NLP)アプリケーションのための強力なツールとしてデプロイされる。
最近の研究は、現代のLSMが自己説明(Ses)を生成できることを示している。
LLMが生成するSEの忠実度と妥当性の両立を論じる。
論文 参考訳(メタデータ) (2024-02-07T06:32:50Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models [20.28989820878285]
大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。
これらのモデルの大規模かつ計算的な要求は、資源に制約のある環境での実践的展開を考えると、大きな課題となる。
論文 参考訳(メタデータ) (2023-11-15T18:56:23Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。