論文の概要: Successor Heads: Recurring, Interpretable Attention Heads In The Wild
- arxiv url: http://arxiv.org/abs/2312.09230v1
- Date: Thu, 14 Dec 2023 18:55:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 20:29:07.059071
- Title: Successor Heads: Recurring, Interpretable Attention Heads In The Wild
- Title(参考訳): 後継の頭:繰り返し、解釈可能な注意の頭
- Authors: Rhys Gould, Euan Ong, George Ogden, Arthur Conmy
- Abstract要約: 我々は、後継のヘッドとして、数字、月、日といった自然な順序でトークンを増量するアテンションヘッドを提示する。
大規模な言語モデルにおいて、後継がいかに増加していくのかを裏付ける'mod-10 機能セットを見つけます。
また,Pythiaの後継ヘッドの解釈可能な多意味性を同定し,自然言語データに対する後継ヘッドの挙動についても検討した。
- 参考スコア(独自算出の注目度): 2.4188584949331053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we present successor heads: attention heads that increment
tokens with a natural ordering, such as numbers, months, and days. For example,
successor heads increment 'Monday' into 'Tuesday'. We explain the successor
head behavior with an approach rooted in mechanistic interpretability, the
field that aims to explain how models complete tasks in human-understandable
terms. Existing research in this area has found interpretable language model
components in small toy models. However, results in toy models have not yet led
to insights that explain the internals of frontier models and little is
currently understood about the internal operations of large language models. In
this paper, we analyze the behavior of successor heads in large language models
(LLMs) and find that they implement abstract representations that are common to
different architectures. They form in LLMs with as few as 31 million
parameters, and at least as many as 12 billion parameters, such as GPT-2,
Pythia, and Llama-2. We find a set of 'mod-10 features' that underlie how
successor heads increment in LLMs across different architectures and sizes. We
perform vector arithmetic with these features to edit head behavior and provide
insights into numeric representations within LLMs. Additionally, we study the
behavior of successor heads on natural language data, identifying interpretable
polysemanticity in a Pythia successor head.
- Abstract(参考訳): この作業では、後継のヘッド – 数、月、日といった自然な順序でトークンを増量するアテンションヘッド – を提示します。
例えば、後継の当主は「月日」を「月日」に増やす。
モデルが人間の理解可能な言葉でタスクを完遂する方法を説明するための分野である機械的解釈可能性に根ざしたアプローチで,後継の頭部行動を説明する。
この領域における既存の研究は、小さな玩具モデルで解釈可能な言語モデルコンポーネントを発見した。
しかし、おもちゃ模型の結果はまだフロンティア模型の内部構造を説明する洞察に至らず、大きな言語模型の内部操作についてはほとんど理解されていない。
本稿では,大規模言語モデル(llms)における後継者の振る舞いを分析し,異なるアーキテクチャに共通する抽象表現を実装していることを示す。
彼らは最大3300万のパラメータと少なくとも120億のパラメータ(GPT-2、Pythia、Llama-2)を持つLLMで形成されている。
アーキテクチャやサイズにまたがるLLMにおいて,後継がいかに増加するかを示す,一連の"mod-10機能"が見つかる。
これらの特徴を用いてベクトル演算を行い,頭部の挙動を編集し,llm内の数値表現に対する洞察を与える。
さらに,自然言語データに対する後継頭部の挙動を解析し,pythia後継頭部における解釈可能な多意味性を特定する。
関連論文リスト
- Relating the Seemingly Unrelated: Principled Understanding of Generalization for Generative Models in Arithmetic Reasoning Tasks [5.522116934552708]
大規模言語モデル(LLM)は多くのタスクにまたがって見事な汎用性を示しているが、その一般化能力はいまだによく分かっていない。
適切な位置埋め込みを持つモデルは、加算などの未確認演算を正しく行うことができることを示す。
また、特定のモジュライ (modulo 100) の下でのモジュラー加法 (modulo 101) の長い未確認ケースに対して、モデルが非常に近いモジュライ (modulo 101) の下での闘い (modulo 101) において、モデルがうまく動作することを示す。
これらの知見は一般化メカニズムの理解を深め、よりデータ効率のよいモデルトレーニングとオブジェクト指向AIアライメントを促進する。
論文 参考訳(メタデータ) (2024-07-25T11:35:22Z) - Cognitive Modeling with Scaffolded LLMs: A Case Study of Referential Expression Generation [5.5711773076846365]
本稿では,参照表現生成のアルゴリズム的認知モデルのニューラルシンボリック実装について検討する。
私たちのハイブリッドアプローチは認知的に妥当であり、複雑な状況下ではうまく機能します。
論文 参考訳(メタデータ) (2024-07-04T10:28:48Z) - Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.2976613483151]
2つのLMで用いられるメカニズムを分析し、1つのタスクでコンテキスト内のアイテムを選択的に抑制する。
モデルが残ストリームの低ランクな部分空間に書き込まれて,後続のレイヤで読み出される特徴を表現することが分かりました。
論文 参考訳(メタデータ) (2024-06-13T18:12:01Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - Language Models Implement Simple Word2Vec-style Vector Arithmetic [32.2976613483151]
言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,その大きさと複雑さにもかかわらず,LMは単純なベクトル演算方式を用いて,いくつかのリレーショナルタスクを解くことの証拠を提示する。
論文 参考訳(メタデータ) (2023-05-25T15:04:01Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。