論文の概要: Opening the Black Box of Large Language Models: Two Views on Holistic
Interpretability
- arxiv url: http://arxiv.org/abs/2402.10688v1
- Date: Fri, 16 Feb 2024 13:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 16:02:56.970206
- Title: Opening the Black Box of Large Language Models: Two Views on Holistic
Interpretability
- Title(参考訳): 大規模言語モデルのブラックボックスを開く: 統括的解釈可能性に関する2つの見解
- Authors: Haiyan Zhao, Fan Yang, Himabindu Lakkaraju, Mengnan Du
- Abstract要約: 機械的解釈可能性と表現工学に関する展望を概観する。
倫理的かつ誠実で信頼性の高い推論を人的価値に合わせて達成するために、これらのテクニックを使用する際の今後の課題について概説する。
- 参考スコア(独自算出の注目度): 40.856476482877824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) grow more powerful, concerns around potential
harms like toxicity, unfairness, and hallucination threaten user trust.
Ensuring beneficial alignment of LLMs with human values through model alignment
is thus critical yet challenging, requiring a deeper understanding of LLM
behaviors and mechanisms. We propose opening the black box of LLMs through a
framework of holistic interpretability encompassing complementary bottom-up and
top-down perspectives. The bottom-up view, enabled by mechanistic
interpretability, focuses on component functionalities and training dynamics.
The top-down view utilizes representation engineering to analyze behaviors
through hidden representations. In this paper, we review the landscape around
mechanistic interpretability and representation engineering, summarizing
approaches, discussing limitations and applications, and outlining future
challenges in using these techniques to achieve ethical, honest, and reliable
reasoning aligned with human values.
- Abstract(参考訳): 大規模言語モデル(llm)がより強力になると、毒性、不公平、幻覚といった潜在的な害に関する懸念がユーザーの信頼を脅かす。
したがって、モデルアライメントによるLLMと人間の価値の適切なアライメントを保証することは、LLMの振る舞いやメカニズムをより深く理解する必要がある。
本稿では,LLMのブラックボックスを,補完的なボトムアップとトップダウンの視点を含む全体論的解釈可能性の枠組みを通じて開放することを提案する。
ボトムアップビューは、機械的な解釈によって実現され、コンポーネントの機能とトレーニングダイナミクスに焦点を当てている。
トップダウンのビューは、隠れた表現を通して振る舞いを分析するために表現工学を利用する。
本稿では,機械的解釈と表現工学の展望を概観し,アプローチを要約し,限界と応用について議論し,これらの手法を人間の価値観に沿った倫理的,誠実で信頼性の高い推論に活用する今後の課題を概説する。
関連論文リスト
- Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs [12.48241058167222]
大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む際に、顕著な効率性を示した。
しかし、数学や物理学の限界など、推論を必要とするタスクに苦しむことが研究によって明らかになっている。
このことは、LLMが組み込み知識を本当に理解しているか、それとも、コンテンツに対する真の理解なしにトークン分布を複製することを学ぶだけなのかという疑問を提起する。
モデルの推論能力を高めるために,新しいパラメータ効率細調整法であるDecon Causal Adaptation (DCA)を提案する。
論文 参考訳(メタデータ) (2024-09-04T13:17:09Z) - Can Large Language Models Understand DL-Lite Ontologies? An Empirical Study [10.051572826948762]
大規模モデル(LLM)は、幅広いタスクを解く上で大きな成果を上げている。
我々は、記述論理(DL-Lite)を理解するLLMの能力を実証的に分析する。
LLMは概念と役割の形式的構文とモデル理論的意味論を理解する。
論文 参考訳(メタデータ) (2024-06-25T13:16:34Z) - Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales [102.54274021830207]
MLLMの教えに忠実で簡潔で伝達しやすい多モーダル論理を生成するために設計された新しいパラダイムであるFactを紹介する。
プログラミングパラダイムからエンドツーエンドパラダイムに転送可能な合理性をフィルタリングして、転送可能性を保証する。
また,画像とテキストの相関性が高いため,幻覚の低減も図っている。
論文 参考訳(メタデータ) (2024-04-17T07:20:56Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。