論文の概要: Unifying Attention Heads and Task Vectors via Hidden State Geometry in In-Context Learning
- arxiv url: http://arxiv.org/abs/2505.18752v1
- Date: Sat, 24 May 2025 15:42:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.63609
- Title: Unifying Attention Heads and Task Vectors via Hidden State Geometry in In-Context Learning
- Title(参考訳): 文脈学習における隠れ状態幾何学による注意頭とタスクベクトルの統一
- Authors: Haolin Yang, Hakaze Cho, Yiqiao Zhong, Naoya Inoue,
- Abstract要約: 本稿では,クエリ隠蔽状態の分離性とアライメントという,性能を左右する2つの幾何学的要因を解析する。
従来のトークンヘッドは分離性を駆動し、誘導ヘッドとタスクベクトルはアライメントを強化する。
そこで本研究は,ICLの基盤となるメカニズムを統一的に記述し,アテンションヘッドとタスクベクトルのギャップを埋めるものである。
- 参考スコア(独自算出の注目度): 2.4866936275046405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The unusual properties of in-context learning (ICL) have prompted investigations into the internal mechanisms of large language models. Prior work typically focuses on either special attention heads or task vectors at specific layers, but lacks a unified framework linking these components to the evolution of hidden states across layers that ultimately produce the model's output. In this paper, we propose such a framework for ICL in classification tasks by analyzing two geometric factors that govern performance: the separability and alignment of query hidden states. A fine-grained analysis of layer-wise dynamics reveals a striking two-stage mechanism: separability emerges in early layers, while alignment develops in later layers. Ablation studies further show that Previous Token Heads drive separability, while Induction Heads and task vectors enhance alignment. Our findings thus bridge the gap between attention heads and task vectors, offering a unified account of ICL's underlying mechanisms.
- Abstract(参考訳): インコンテキスト学習(ICL)の異常な特性は、大規模言語モデルの内部メカニズムの研究を促している。
以前の作業は通常、特定のレイヤにおける特別な注意頭またはタスクベクトルに焦点をあてるが、これらのコンポーネントを最終的にモデルの出力を生成するレイヤ間で隠れた状態の進化にリンクする統一されたフレームワークは欠如している。
本稿では,クエリ隠蔽状態の分離性とアライメントという,性能を規定する2つの幾何学的要因を解析することにより,分類タスクにおけるICLの枠組みを提案する。
分離性は初期層に現れ、アライメントは後期層に発達する。
アブレーション研究により、先行トークンヘッドは分離性を高め、誘導ヘッドとタスクベクトルはアライメントを高めることが示されている。
そこで本研究は,ICLの基盤となるメカニズムを統一的に記述し,アテンションヘッドとタスクベクトルのギャップを埋めるものである。
関連論文リスト
- From Compression to Expansion: A Layerwise Analysis of In-Context Learning [20.64102133977965]
In-context Learning (ICL)は、大規模な言語モデルで、デモシーケンスから学習することで、重み付けなしで新しいタスクに適応することができる。
ICL表現の統計的幾何学的解析を行い,各層にまたがるタスク固有情報の取得方法について検討する。
この結果から,ILC の階層的ダイナミックな構造的表現が LLM 内でどのように現れるかが明らかとなり,内部表現の分析がモデル行動のより深い理解を促進することが示唆された。
論文 参考訳(メタデータ) (2025-05-22T22:22:03Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - Attention Heads of Large Language Models: A Survey [10.136767972375639]
我々は,大規模言語モデル (LLM) の内部的推論過程を体系的に検討し,その役割と機構を解明することを目的としている。
まず,人間の思考プロセスにインスパイアされた新しい4段階のフレームワーク,知識のリコール,文脈内同定,潜在推論,表現準備を紹介する。
本稿では,これらの特殊ヘッドの発見に使用する実験手法を,モデリング自由法とモデリング要求法という2つのカテゴリに分けて分析する。
論文 参考訳(メタデータ) (2024-09-05T17:59:12Z) - Distributional Associations vs In-Context Reasoning: A Study of Feed-forward and Attention Layers [49.80959223722325]
本研究では,大規模言語モデルにおけるフィードフォワード層とアテンション層との区別について検討する。
フィードフォワード層はビッグラムのような単純な分布関係を学習する傾向があり、注意層は文脈内推論にフォーカスする。
論文 参考訳(メタデータ) (2024-06-05T08:51:08Z) - On Understanding Attention-Based In-Context Learning for Categorical Data [49.40350941996942]
我々は,アテンションブロックで構成されるネットワークを開発し,各ブロックに自己注意層を付加し,その後にクロスアテンション層と関連するスキップ接続を付加する。
このモデルは、カテゴリー的観察を伴う文脈内推論のための多段階機能的GD推論を正確に行うことができる。
論文 参考訳(メタデータ) (2024-05-27T15:03:21Z) - Dual Contrastive Learning for General Face Forgery Detection [64.41970626226221]
本稿では,正と負のペアデータを構成するDCL (Dual Contrastive Learning) という新しい顔偽造検出フレームワークを提案する。
本研究は, 事例内コントラスト学習(Intra-ICL)において, 偽造顔における局所的内容の不整合に焦点をあてる。
論文 参考訳(メタデータ) (2021-12-27T05:44:40Z) - Structure-Aware Feature Generation for Zero-Shot Learning [108.76968151682621]
潜在空間と生成ネットワークの両方を学習する際の位相構造を考慮し,SA-GANと呼ばれる新しい構造認識特徴生成手法を提案する。
本手法は,未確認クラスの一般化能力を大幅に向上させ,分類性能を向上させる。
論文 参考訳(メタデータ) (2021-08-16T11:52:08Z) - DisenE: Disentangling Knowledge Graph Embeddings [33.169388832519]
DisenEは、非絡み合いの知識グラフの埋め込みを学習するためのエンドツーエンドフレームワークである。
我々は,モデルが与えられた関係に応じて,エンティティ埋め込みの関連コンポーネントに明示的に焦点を絞ることができるように,注意に基づく機構を導入する。
論文 参考訳(メタデータ) (2020-10-28T03:45:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。