Fugu-MT 論文翻訳(概要): Opening the Black Box of Large Language Models: Two Views on Holistic Interpretability

論文の概要: Opening the Black Box of Large Language Models: Two Views on Holistic Interpretability

arxiv url: http://arxiv.org/abs/2402.10688v1
Date: Fri, 16 Feb 2024 13:46:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 16:02:56.970206
Title: Opening the Black Box of Large Language Models: Two Views on Holistic Interpretability
Title（参考訳）: 大規模言語モデルのブラックボックスを開く: 統括的解釈可能性に関する2つの見解
Authors: Haiyan Zhao, Fan Yang, Himabindu Lakkaraju, Mengnan Du
Abstract要約: 機械的解釈可能性と表現工学に関する展望を概観する。倫理的かつ誠実で信頼性の高い推論を人的価値に合わせて達成するために、これらのテクニックを使用する際の今後の課題について概説する。
参考スコア（独自算出の注目度）: 40.856476482877824
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As large language models (LLMs) grow more powerful, concerns around potential harms like toxicity, unfairness, and hallucination threaten user trust. Ensuring beneficial alignment of LLMs with human values through model alignment is thus critical yet challenging, requiring a deeper understanding of LLM behaviors and mechanisms. We propose opening the black box of LLMs through a framework of holistic interpretability encompassing complementary bottom-up and top-down perspectives. The bottom-up view, enabled by mechanistic interpretability, focuses on component functionalities and training dynamics. The top-down view utilizes representation engineering to analyze behaviors through hidden representations. In this paper, we review the landscape around mechanistic interpretability and representation engineering, summarizing approaches, discussing limitations and applications, and outlining future challenges in using these techniques to achieve ethical, honest, and reliable reasoning aligned with human values.
Abstract（参考訳）: 大規模言語モデル(llm)がより強力になると、毒性、不公平、幻覚といった潜在的な害に関する懸念がユーザーの信頼を脅かす。したがって、モデルアライメントによるLLMと人間の価値の適切なアライメントを保証することは、LLMの振る舞いやメカニズムをより深く理解する必要がある。本稿では,LLMのブラックボックスを,補完的なボトムアップとトップダウンの視点を含む全体論的解釈可能性の枠組みを通じて開放することを提案する。ボトムアップビューは、機械的な解釈によって実現され、コンポーネントの機能とトレーニングダイナミクスに焦点を当てている。トップダウンのビューは、隠れた表現を通して振る舞いを分析するために表現工学を利用する。本稿では,機械的解釈と表現工学の展望を概観し,アプローチを要約し,限界と応用について議論し,これらの手法を人間の価値観に沿った倫理的,誠実で信頼性の高い推論に活用する今後の課題を概説する。

関連論文リスト

LLM Inference Enhanced by External Knowledge: A Survey [16.319049759753106]
本研究では,外部知識を用いた大規模言語モデル(LLM)の強化戦略について検討する。比較分析では、解釈可能性、スケーラビリティ、パフォーマンスのトレードオフを強調しています。
論文参考訳（メタデータ） (2025-05-30T09:08:51Z)
A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models [40.67240575271987]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、その内部メカニズムはほとんど不透明である。機械的解釈性は、LLMの内部動作を理解する手段として、研究コミュニティから大きな注目を集めている。スパースオートエンコーダ(SAE)は、LLM内の複雑な重畳された機能をより解釈可能なコンポーネントに分解する能力のために、将来性のある方法として登場した。
論文参考訳（メタデータ） (2025-03-07T17:38:00Z)
SEER: Self-Explainability Enhancement of Large Language Models' Representations [18.840860385644316]
大規模言語モデル(LLM)を説明する自己説明法SEERを提案する。本稿では、同じ概念を集約し、表現空間における異なる概念を分離することにより、LLMの説明可能性を高める自己説明法SEERを提案する。自己説明型LLMが説明可能性と性能を一貫した改善を達成するための信頼性関連タスクへのSEERの適用について紹介する。
論文参考訳（メタデータ） (2025-02-07T13:25:33Z)
Thinking with Knowledge Graphs: Enhancing LLM Reasoning Through Structured Data [0.9284740716447338]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示した。近年の研究では、知識グラフ(KG)を活用してLLM性能を向上させるという有望な成果が示されている。我々は、KG構造と意味論をLLM表現に密に統合する様々な手法を開発した。
論文参考訳（メタデータ） (2024-12-14T02:51:47Z)
Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs [12.48241058167222]
大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む際に、顕著な効率性を示した。しかし、数学や物理学の限界など、推論を必要とするタスクに苦しむことが研究によって明らかになっている。このことは、LLMが組み込み知識を本当に理解しているか、それとも、コンテンツに対する真の理解なしにトークン分布を複製することを学ぶだけなのかという疑問を提起する。モデルの推論能力を高めるために,新しいパラメータ効率細調整法であるDecon Causal Adaptation (DCA)を提案する。
論文参考訳（メタデータ） (2024-09-04T13:17:09Z)
Can Large Language Models Understand DL-Lite Ontologies? An Empirical Study [10.051572826948762]
大規模モデル(LLM)は、幅広いタスクを解く上で大きな成果を上げている。我々は、記述論理(DL-Lite)を理解するLLMの能力を実証的に分析する。 LLMは概念と役割の形式的構文とモデル理論的意味論を理解する。
論文参考訳（メタデータ） (2024-06-25T13:16:34Z)
Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales [102.54274021830207]
MLLMの教えに忠実で簡潔で伝達しやすい多モーダル論理を生成するために設計された新しいパラダイムであるFactを紹介する。プログラミングパラダイムからエンドツーエンドパラダイムに転送可能な合理性をフィルタリングして、転送可能性を保証する。また,画像とテキストの相関性が高いため,幻覚の低減も図っている。
論文参考訳（メタデータ） (2024-04-17T07:20:56Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
From Understanding to Utilization: A Survey on Explainability for Large Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文参考訳（メタデータ） (2024-01-23T16:09:53Z)
Sparsity-Guided Holistic Explanation for LLMs with Interpretable Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。 LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文参考訳（メタデータ） (2023-12-22T19:55:58Z)
Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文参考訳（メタデータ） (2023-09-02T22:14:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。