論文の概要: On Championing Foundation Models: From Explainability to Interpretability
- arxiv url: http://arxiv.org/abs/2410.11444v1
- Date: Tue, 15 Oct 2024 09:48:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:43.519862
- Title: On Championing Foundation Models: From Explainability to Interpretability
- Title(参考訳): ファンデーションモデルのチャンピオンについて:説明可能性から解釈可能性へ
- Authors: Shi Fu, Yuzhu Chen, Yingjie Wang, Dacheng Tao,
- Abstract要約: 本調査は、上記の原則に準拠し、ブラックボックス基礎モデルに適用された解釈可能な手法をレビューすることを目的としている。
これらの手法は機械学習理論に根ざし、一般化性能、表現能力、動的挙動の分析を網羅している。
これらは、推論能力やトレーニングダイナミクスから倫理的意味まで、FMのワークフロー全体の完全な解釈を提供する。
- 参考スコア(独自算出の注目度): 48.2313835471321
- License:
- Abstract: Understanding the inner mechanisms of black-box foundation models (FMs) is essential yet challenging in artificial intelligence and its applications. Over the last decade, the long-running focus has been on their explainability, leading to the development of post-hoc explainable methods to rationalize the specific decisions already made by black-box FMs. However, these explainable methods have certain limitations in terms of faithfulness, detail capture and resource requirement. Consequently, in response to these issues, a new class of interpretable methods should be considered to unveil the underlying mechanisms in an accurate, comprehensive, heuristic and resource-light way. This survey aims to review interpretable methods that comply with the aforementioned principles and have been successfully applied to FMs. These methods are deeply rooted in machine learning theory, covering the analysis of generalization performance, expressive capability, and dynamic behavior. They provide a thorough interpretation of the entire workflow of FMs, ranging from the inference capability and training dynamics to their ethical implications. Ultimately, drawing upon these interpretations, this review identifies the next frontier research directions for FMs.
- Abstract(参考訳): ブラックボックス基礎モデル(FM)の内部メカニズムを理解することは、人工知能とその応用において不可欠だが困難である。
過去10年にわたって、長期にわたるその説明可能性に焦点が当てられ、ブラックボックスFMによる特定の決定を合理化するためのポストホックな説明可能な方法の開発につながった。
しかし、これらの説明可能な手法は、忠実さ、詳細なキャプチャ、リソース要件の点で一定の制限がある。
したがって、これらの問題に対して、新しい解釈可能な手法のクラスは、その基盤となるメカニズムを、正確で包括的で、ヒューリスティックで、リソースライトな方法で明らかにすべきである。
本調査は、上記の原則に従って、FMに適用された解釈可能な手法をレビューすることを目的としている。
これらの手法は機械学習理論に深く根ざしており、一般化性能、表現能力、動的挙動の分析を網羅している。
これらは、推論能力やトレーニングダイナミクスから倫理的意味まで、FMのワークフロー全体の完全な解釈を提供する。
最終的に、これらの解釈に基づいて、このレビューはFMの次のフロンティア研究の方向性を特定する。
関連論文リスト
- A Mechanistic Interpretation of Syllogistic Reasoning in Auto-Regressive Language Models [13.59675117792588]
自己回帰言語モデル(LM)における論理的推論に関する最近の研究は、そのようなモデルが事前学習中に体系的推論原理を学習できるかという議論を引き起こしている。
本稿では, 内部力学の理解を深めるため, LMにおけるシロメトリクス推論の機械論的解釈を提案する。
論文 参考訳(メタデータ) (2024-08-16T07:47:39Z) - A Guide to Feature Importance Methods for Scientific Inference [10.31256905045161]
特徴重要度(FI)法はデータ生成過程(DGP)に有用な洞察を与える
本稿では,グローバルFI手法の解釈の理解を支援するための包括的ガイドとして機能する。
論文 参考訳(メタデータ) (2024-04-19T13:01:59Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Explainable Deep Reinforcement Learning: State of the Art and Challenges [1.005130974691351]
解釈可能性、説明可能性、透明性は、多くの重要な領域で人工知能メソッドを導入する上で重要な問題である。
本稿では, 深層強化学習法について解説する技術の現状について概説する。
論文 参考訳(メタデータ) (2023-01-24T11:41:25Z) - ExSum: From Local Explanations to Model Understanding [6.23934576145261]
ブラックボックスモデルの動作メカニズムを理解するために,解釈可能性法を開発した。
この目標をフルフィルするには、これらのメソッドによって生成された説明が正しいことと、人々が容易に確実に理解できることの両方が必要である。
本稿では,モデル理解の定量化のための数学的枠組みである説明要約(ExSum)を紹介する。
論文 参考訳(メタデータ) (2022-04-30T02:07:20Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。