論文の概要: $K$-MSHC: Unmasking Minimally Sufficient Head Circuits in Large Language Models with Experiments on Syntactic Classification Tasks
- arxiv url: http://arxiv.org/abs/2505.12268v2
- Date: Thu, 05 Jun 2025 01:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 16:56:39.499932
- Title: $K$-MSHC: Unmasking Minimally Sufficient Head Circuits in Large Language Models with Experiments on Syntactic Classification Tasks
- Title(参考訳): $K$-MSHC:大規模言語モデルにおける最小限のヘッド回路の解法と構文分類課題の実験
- Authors: Pratim Chowdhary, Peter Chin, Deepernab Chakrabarty,
- Abstract要約: 我々は,分類作業に不可欠な最小限の注意点を識別する手法である$(bmK, epsilon)$-Minimum Sufficient Head Circuitを導入する。
検索-K-MSHCアルゴリズムをGemma-9Bに適用し、文法受容性、算術検証、算術語問題という3つの構文的タスクファミリを解析する。
本研究により, タスク固有のヘッド回路が明らかになり, 初期層を利用した文法タスク, 浅い領域と深い領域の両方で顕著な活動を示す単語問題, ネットワークにまたがるより分散したパターンを示す算術的検証が実現した。
- 参考スコア(独自算出の注目度): 3.767957313558699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding which neural components drive specific capabilities in mid-sized language models ($\leq$10B parameters) remains a key challenge. We introduce the $(\bm{K}, \epsilon)$-Minimum Sufficient Head Circuit ($K$-MSHC), a methodology to identify minimal sets of attention heads crucial for classification tasks as well as Search-K-MSHC, an efficient algorithm for discovering these circuits. Applying our Search-K-MSHC algorithm to Gemma-9B, we analyze three syntactic task families: grammar acceptability, arithmetic verification, and arithmetic word problems. Our findings reveal distinct task-specific head circuits, with grammar tasks predominantly utilizing early layers, word problems showing pronounced activity in both shallow and deep regions, and arithmetic verification demonstrating a more distributed pattern across the network. We discover non-linear circuit overlap patterns, where different task pairs share computational components at varying levels of importance. While grammar and arithmetic share many "weak" heads, arithmetic and word problems share more consistently critical "strong" heads. Importantly, we find that each task maintains dedicated "super-heads" with minimal cross-task overlap, suggesting that syntactic and numerical competencies emerge from specialized yet partially reusable head circuits.
- Abstract(参考訳): 中規模の言語モデル(\leq$10Bパラメータ)でどのニューラルネットワークコンポーネントが特定の機能を駆動するかを理解することは、依然として重要な課題である。
本稿では,これらの回路を探索するアルゴリズムである検索-K-MSHCとともに,分類タスクに不可欠な最小限の注目ヘッドを識別する手法である$(\bm{K}, \epsilon)$-Minimum Sufficient Head Circuit(K$-MSHC)を紹介する。
検索-K-MSHCアルゴリズムをGemma-9Bに適用し、文法受容性、算術検証、算術語問題という3つの構文的タスクファミリを解析する。
本研究により, タスク固有のヘッド回路が明らかになり, 初期層を利用した文法タスク, 浅い領域と深い領域の両方で顕著な活動を示す単語問題, ネットワークにまたがるより分散したパターンを示す算術的検証が実現した。
我々は、異なるタスクペアが計算コンポーネントを様々なレベルで共有する非線形回路重なりパターンを発見する。
文法と算術は多くの「弱い」ヘッドを共有しているのに対し、算術と単語の問題はより一貫して重要な「強い」ヘッドを共有している。
重要なことは、各タスクは最小のクロスタスクオーバーラップで専用の「スーパーヘッド」を維持しており、構文的および数値的能力は特殊だが部分的に再利用可能なヘッド回路から出現することを示唆している。
関連論文リスト
- Do Attention Heads Compete or Cooperate during Counting? [0.12116854758481393]
初等課題における小型変圧器の深部機械的解釈可能性解析について述べる。
我々は、注目ヘッドが擬似アンサンブルとして振る舞うのか、すべて同じサブタスクを解くのか、それとも異なるサブタスクを実行するのかを問う。
論文 参考訳(メタデータ) (2025-02-10T17:21:39Z) - An Analysis under a Unified Fomulation of Learning Algorithms with Output Constraints [5.10832476049103]
ニューラルネットワーク(NN)は様々なタスクでよく機能するが、時には人間に非意味な結果をもたらす。
トレーニング中に出力制約を減らして人間の知識を注入することで、モデルの性能を改善し、制約違反を減らすことができる。
メインタスクの情報と制約注入を統合化するための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-03T12:58:29Z) - An Examination on the Effectiveness of Divide-and-Conquer Prompting in Large Language Models [28.139780691709266]
本研究では,DACプロンプトが性能向上に寄与する特定のタスクの特定を支援する。
実験結果が理論解析と一致した2つのケース(大整数算術と実数検証)を提示する。
論文 参考訳(メタデータ) (2024-02-08T02:37:30Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Self-paced Weight Consolidation for Continual Learning [39.27729549041708]
連続学習アルゴリズムは、逐次的なタスク学習設定における破滅的な忘れ込みを防ぐのに人気がある。
継続学習を実現するために,自己ペーストウェイト統合(spWC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-20T13:07:41Z) - Object-Centric Multi-Task Learning for Human Instances [8.035105819936808]
オブジェクト中心学習によって複数のタスクのパラメータを最大に共有する,コンパクトなマルチタスクネットワークアーキテクチャについて検討する。
我々は、人中心クエリ(HCQ)と呼ばれる、人間のインスタンス情報を効果的に符号化する新しいクエリ設計を提案する。
実験結果から,提案したマルチタスクネットワークは,最先端タスク固有モデルに匹敵する精度を実現することがわかった。
論文 参考訳(メタデータ) (2023-03-13T01:10:50Z) - Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - Are Deep Neural Networks SMARTer than Second Graders? [85.60342335636341]
6~8歳児を対象としたビジュオ言語パズルの解法において,ニューラルネットワークの抽象化,推論,一般化能力の評価を行った。
我々のデータセットは101のユニークなパズルで構成されており、各パズルは絵の質問で構成されており、それらの解には算術、代数学、空間推論を含むいくつかの基本的なスキルが混在している必要がある。
実験により、強力なディープモデルは教師付き設定でパズルに合理的な性能を与えるが、一般化のために解析するとランダムな精度よりは良くないことが明らかになった。
論文 参考訳(メタデータ) (2022-12-20T04:33:32Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Learning to Detect Critical Nodes in Sparse Graphs via Feature Importance Awareness [53.351863569314794]
クリティカルノード問題(CNP)は、削除が残余ネットワークのペア接続性を最大に低下させるネットワークから臨界ノードの集合を見つけることを目的としている。
本研究は,ノード表現のための特徴重要度対応グラフアテンションネットワークを提案する。
ダブルディープQネットワークと組み合わせて、初めてCNPを解くエンドツーエンドのアルゴリズムを作成する。
論文 参考訳(メタデータ) (2021-12-03T14:23:05Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。