論文の概要: Opening the Black Box of Large Language Models: Two Views on Holistic
Interpretability
- arxiv url: http://arxiv.org/abs/2402.10688v1
- Date: Fri, 16 Feb 2024 13:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 16:02:56.970206
- Title: Opening the Black Box of Large Language Models: Two Views on Holistic
Interpretability
- Title(参考訳): 大規模言語モデルのブラックボックスを開く: 統括的解釈可能性に関する2つの見解
- Authors: Haiyan Zhao, Fan Yang, Himabindu Lakkaraju, Mengnan Du
- Abstract要約: 機械的解釈可能性と表現工学に関する展望を概観する。
倫理的かつ誠実で信頼性の高い推論を人的価値に合わせて達成するために、これらのテクニックを使用する際の今後の課題について概説する。
- 参考スコア(独自算出の注目度): 40.856476482877824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) grow more powerful, concerns around potential
harms like toxicity, unfairness, and hallucination threaten user trust.
Ensuring beneficial alignment of LLMs with human values through model alignment
is thus critical yet challenging, requiring a deeper understanding of LLM
behaviors and mechanisms. We propose opening the black box of LLMs through a
framework of holistic interpretability encompassing complementary bottom-up and
top-down perspectives. The bottom-up view, enabled by mechanistic
interpretability, focuses on component functionalities and training dynamics.
The top-down view utilizes representation engineering to analyze behaviors
through hidden representations. In this paper, we review the landscape around
mechanistic interpretability and representation engineering, summarizing
approaches, discussing limitations and applications, and outlining future
challenges in using these techniques to achieve ethical, honest, and reliable
reasoning aligned with human values.
- Abstract(参考訳): 大規模言語モデル(llm)がより強力になると、毒性、不公平、幻覚といった潜在的な害に関する懸念がユーザーの信頼を脅かす。
したがって、モデルアライメントによるLLMと人間の価値の適切なアライメントを保証することは、LLMの振る舞いやメカニズムをより深く理解する必要がある。
本稿では,LLMのブラックボックスを,補完的なボトムアップとトップダウンの視点を含む全体論的解釈可能性の枠組みを通じて開放することを提案する。
ボトムアップビューは、機械的な解釈によって実現され、コンポーネントの機能とトレーニングダイナミクスに焦点を当てている。
トップダウンのビューは、隠れた表現を通して振る舞いを分析するために表現工学を利用する。
本稿では,機械的解釈と表現工学の展望を概観し,アプローチを要約し,限界と応用について議論し,これらの手法を人間の価値観に沿った倫理的,誠実で信頼性の高い推論に活用する今後の課題を概説する。
関連論文リスト
- Unveiling LLMs: The Evolution of Latent Representations in a Temporal Knowledge Graph [15.129079475322637]
大規模言語モデル(LLM)は、幅広い事実知識情報を思い出すための印象的な能力を示している。
LLMの潜伏空間に埋め込まれた事実知識を共同で復号するエンド・ツー・エンドのフレームワークを提案する。
本稿では,2つのクレーム検証データセットを用いた局所的および大域的解釈可能性分析を行った。
論文 参考訳(メタデータ) (2024-04-04T17:45:59Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Large Language Models As Faithful Explainers [67.38301892818778]
大規模言語モデル(LLM)は近年,その豊富な内部知識と推論能力を活用することで,複雑なタスクに対処する技術に長けている。
我々は、LLMの自然言語形式で提供される説明の忠実性を改善するために、生成的説明フレームワークであるxLLMを導入する。
3つのNLUデータセットで行った実験により、xLLMは生成された説明の忠実性を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。