論文の概要: $K$-MSHC: Unmasking Minimally Sufficient Head Circuits in Large Language Models with Experiments on Syntactic Classification Tasks
- arxiv url: http://arxiv.org/abs/2505.12268v1
- Date: Sun, 18 May 2025 07:15:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.131245
- Title: $K$-MSHC: Unmasking Minimally Sufficient Head Circuits in Large Language Models with Experiments on Syntactic Classification Tasks
- Title(参考訳): $K$-MSHC:大規模言語モデルにおける最小限のヘッド回路の解法と構文分類課題の実験
- Authors: Pratim Chowdhary,
- Abstract要約: 我々は,分類作業に不可欠な最小限の注意点を識別する手法である$(bmK, epsilon)$-Minimum Sufficient Head Circuitを導入する。
検索-K-MSHCアルゴリズムをGemma-9Bに適用し、文法受容性、算術検証、算術語問題という3つの構文的タスクファミリを解析する。
本研究により, タスク固有のヘッド回路が明らかになり, 初期層を利用した文法タスク, 浅い領域と深い領域の両方で顕著な活動を示す単語問題, ネットワークにまたがるより分散したパターンを示す算術的検証が実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding which neural components drive specific capabilities in mid-sized language models ($\leq$10B parameters) remains a key challenge. We introduce the $(\bm{K}, \epsilon)$-Minimum Sufficient Head Circuit ($K$-MSHC), a methodology to identify minimal sets of attention heads crucial for classification tasks as well as Search-K-MSHC, an efficient algorithm for discovering these circuits. Applying our Search-K-MSHC algorithm to Gemma-9B, we analyze three syntactic task families: grammar acceptability, arithmetic verification, and arithmetic word problems. Our findings reveal distinct task-specific head circuits, with grammar tasks predominantly utilizing early layers, word problems showing pronounced activity in both shallow and deep regions, and arithmetic verification demonstrating a more distributed pattern across the network. We discover non-linear circuit overlap patterns, where different task pairs share computational components at varying levels of importance. While grammar and arithmetic share many "weak" heads, arithmetic and word problems share more consistently critical "strong" heads. Importantly, we find that each task maintains dedicated "super-heads" with minimal cross-task overlap, suggesting that syntactic and numerical competencies emerge from specialized yet partially reusable head circuits.
- Abstract(参考訳): 中規模の言語モデル(\leq$10Bパラメータ)でどのニューラルネットワークコンポーネントが特定の機能を駆動するかを理解することは、依然として重要な課題である。
本稿では,これらの回路を探索するアルゴリズムである検索-K-MSHCとともに,分類タスクに不可欠な最小限の注目ヘッドを識別する手法である$(\bm{K}, \epsilon)$-Minimum Sufficient Head Circuit(K$-MSHC)を紹介する。
検索-K-MSHCアルゴリズムをGemma-9Bに適用し、文法受容性、算術検証、算術語問題という3つの構文的タスクファミリを解析する。
本研究により, タスク固有のヘッド回路が明らかになり, 初期層を利用した文法タスク, 浅い領域と深い領域の両方で顕著な活動を示す単語問題, ネットワークにまたがるより分散したパターンを示す算術的検証が実現した。
我々は、異なるタスクペアが計算コンポーネントを様々なレベルで共有する非線形回路重なりパターンを発見する。
文法と算術は多くの「弱い」ヘッドを共有しているのに対し、算術と単語の問題はより一貫して重要な「強い」ヘッドを共有している。
重要なことは、各タスクは最小のクロスタスクオーバーラップで専用の「スーパーヘッド」を維持しており、構文的および数値的能力は特殊だが部分的に再利用可能なヘッド回路から出現することを示唆している。
関連論文リスト
- An Analysis under a Unified Fomulation of Learning Algorithms with Output Constraints [5.10832476049103]
ニューラルネットワーク(NN)は様々なタスクでよく機能するが、時には人間に非意味な結果をもたらす。
トレーニング中に出力制約を減らして人間の知識を注入することで、モデルの性能を改善し、制約違反を減らすことができる。
メインタスクの情報と制約注入を統合化するための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-03T12:58:29Z) - An Examination on the Effectiveness of Divide-and-Conquer Prompting in Large Language Models [28.139780691709266]
本研究では,DACプロンプトが性能向上に寄与する特定のタスクの特定を支援する。
実験結果が理論解析と一致した2つのケース(大整数算術と実数検証)を提示する。
論文 参考訳(メタデータ) (2024-02-08T02:37:30Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Object-Centric Multi-Task Learning for Human Instances [8.035105819936808]
オブジェクト中心学習によって複数のタスクのパラメータを最大に共有する,コンパクトなマルチタスクネットワークアーキテクチャについて検討する。
我々は、人中心クエリ(HCQ)と呼ばれる、人間のインスタンス情報を効果的に符号化する新しいクエリ設計を提案する。
実験結果から,提案したマルチタスクネットワークは,最先端タスク固有モデルに匹敵する精度を実現することがわかった。
論文 参考訳(メタデータ) (2023-03-13T01:10:50Z) - Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - Learning to Detect Critical Nodes in Sparse Graphs via Feature Importance Awareness [53.351863569314794]
クリティカルノード問題(CNP)は、削除が残余ネットワークのペア接続性を最大に低下させるネットワークから臨界ノードの集合を見つけることを目的としている。
本研究は,ノード表現のための特徴重要度対応グラフアテンションネットワークを提案する。
ダブルディープQネットワークと組み合わせて、初めてCNPを解くエンドツーエンドのアルゴリズムを作成する。
論文 参考訳(メタデータ) (2021-12-03T14:23:05Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。