論文の概要: Attention Heads of Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2409.03752v1
- Date: Thu, 5 Sep 2024 17:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 19:33:34.809751
- Title: Attention Heads of Large Language Models: A Survey
- Title(参考訳): 大規模言語モデルの注意:調査
- Authors: Zifan Zheng, Yezhaohui Wang, Yuxin Huang, Shichao Song, Bo Tang, Feiyu Xiong, Zhiyu Li,
- Abstract要約: 大規模言語モデル(LLM)は様々なタスクに優れていますが、ブラックボックスシステムとして残っています。
本調査は,LLMの内部的推論過程の解明を目的として,注目頭部の解釈可能性と基盤機構に着目した。
- 参考スコア(独自算出の注目度): 10.311603498485432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the advent of ChatGPT, Large Language Models (LLMs) have excelled in various tasks but remain largely as black-box systems. Consequently, their development relies heavily on data-driven approaches, limiting performance enhancement through changes in internal architecture and reasoning pathways. As a result, many researchers have begun exploring the potential internal mechanisms of LLMs, aiming to identify the essence of their reasoning bottlenecks, with most studies focusing on attention heads. Our survey aims to shed light on the internal reasoning processes of LLMs by concentrating on the interpretability and underlying mechanisms of attention heads. We first distill the human thought process into a four-stage framework: Knowledge Recalling, In-Context Identification, Latent Reasoning, and Expression Preparation. Using this framework, we systematically review existing research to identify and categorize the functions of specific attention heads. Furthermore, we summarize the experimental methodologies used to discover these special heads, dividing them into two categories: Modeling-Free methods and Modeling-Required methods. Also, we outline relevant evaluation methods and benchmarks. Finally, we discuss the limitations of current research and propose several potential future directions. Our reference list is open-sourced at \url{https://github.com/IAAR-Shanghai/Awesome-Attention-Heads}.
- Abstract(参考訳): ChatGPTの登場以来、Large Language Models (LLMs) は様々なタスクに優れてきたが、ブラックボックスシステムとして維持されている。
その結果、その開発はデータ駆動アプローチに大きく依存しており、内部アーキテクチャや推論経路の変更によるパフォーマンス向上を制限している。
その結果、多くの研究者がLPMの内部メカニズムの可能性を探求し始めており、ほとんどの研究は注目の頭脳に焦点をあてて、彼らの推論ボトルネックの本質を特定することを目的としている。
本調査は,LLMの内部的推論過程の解明を目的としたもので,注目頭部の解釈可能性と基盤機構に焦点をあてたものである。
まず,人間の思考過程を,知識リコール,文脈内同定,潜時推論,表現準備という4段階の枠組みに抽出する。
この枠組みを用いて,既存の研究を体系的に検証し,特定の注目者の機能を特定し,分類する。
さらに,これらの特殊ヘッドの発見に使用する実験手法を,モデリング自由法とモデリング不要法という2つのカテゴリに分けて要約した。
また、関連する評価手法とベンチマークについて概説する。
最後に、現在の研究の限界について論じ、将来の可能性についていくつか提案する。
我々の参照リストは、 \url{https://github.com/IAAR-Shanghai/Awesome-Attention-Heads} でオープンソース化されています。
関連論文リスト
- Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Knowledge Boundary of Large Language Models: A Survey [75.67848187449418]
大規模言語モデル(LLM)はパラメータに膨大な量の知識を格納するが、特定の知識の記憶と利用に制限がある。
これは、LLMの知識境界を理解するための重要な必要性を強調している。
本稿では,LLM知識境界の包括的定義を提案し,知識を4つの異なるタイプに分類する形式化された分類法を提案する。
論文 参考訳(メタデータ) (2024-12-17T02:14:02Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - A Philosophical Introduction to Language Models - Part II: The Way Forward [0.0]
大規模言語モデル(LLM)の最近の進歩によって提起された新しい哲学的問題について考察する。
我々は特に,LLMの内部表現と計算の性質に関する因果介入手法の証拠を検証し,解釈可能性に関する問題に焦点をあてる。
建築的特徴や学習シナリオが適切に制約されている場合、LLMのようなシステムが人間の認知のモデル化に関係があるかどうかを論じる。
論文 参考訳(メタデータ) (2024-05-06T07:12:45Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。