論文の概要: Interpreting Shared Circuits for Ordered Sequence Prediction in a Large
Language Model
- arxiv url: http://arxiv.org/abs/2311.04131v3
- Date: Thu, 22 Feb 2024 17:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 18:19:57.754268
- Title: Interpreting Shared Circuits for Ordered Sequence Prediction in a Large
Language Model
- Title(参考訳): 大言語モデルにおける順序列予測のための共有回路の解釈
- Authors: Michael Lan, Fazl Barez
- Abstract要約: この研究は、トランスフォーマーモデルを回路と呼ばれる人間可読表現にリバースエンジニアリングすることを目的としている。
我々は、シーケンスメンバーの検出と、シーケンス内の次のメンバの予測に責任があるキーサブ回路を同定する。
解析の結果、意味的関連配列は類似した役割を持つ共有回路サブグラフに依存していることが明らかとなった。
- 参考スコア(独自算出の注目度): 2.44755919161855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While transformer models exhibit strong capabilities on linguistic tasks,
their complex architectures make them difficult to interpret. Recent work has
aimed to reverse engineer transformer models into human-readable
representations called circuits that implement algorithmic functions. We extend
this research by analyzing and comparing circuits for similar sequence
continuation tasks, which include increasing sequences of digits, number words,
and months. Through the application of circuit analysis techniques, we identify
key sub-circuits responsible for detecting sequence members and for predicting
the next member in a sequence. Our analysis reveals that semantically related
sequences rely on shared circuit subgraphs with analogous roles. Overall,
documenting shared computational structures enables better prediction of model
behaviors, identification of errors, and safer editing procedures. This
mechanistic understanding of transformers is a critical step towards building
more robust, aligned, and interpretable language models.
- Abstract(参考訳): トランスフォーマーモデルは言語的タスクに強い能力を示すが、それらの複雑なアーキテクチャは解釈を困難にする。
最近の研究は、トランスフォーマーモデルをアルゴリズム機能を実装する回路と呼ばれる可読表現にリバースエンジニアリングすることを目的としている。
この研究は、桁数、数語数、月数の増加を含む、類似のシーケンス継続タスクの回路の解析と比較によって拡張される。
回路解析手法の適用により、シーケンス部材の検出と次の配列部材の予測に責任を負うキーサブ回路を同定する。
解析の結果、意味的関連配列は類似した役割を持つ共有回路サブグラフに依存することが明らかとなった。
全体として、共有計算構造の文書化は、モデルの振る舞いのより良い予測、エラーの識別、より安全な編集手順を可能にする。
トランスフォーマーのこの機械的理解は、より堅牢で整合的で解釈可能な言語モデルを構築するための重要なステップである。
関連論文リスト
- Uncovering Intermediate Variables in Transformers using Circuit Probing [32.382094867951224]
本稿では,仮説化中間変数を演算する低レベル回路を自動的に発見する回路探索手法を提案する。
本手法は,(1)モデルが学習したアルゴリズムの解読,(2)モデル内のモジュラ構造を明らかにすること,(3)学習中の回路の発達を追跡することなどにおいて,単純な算術課題で訓練されたモデルに適用する。
論文 参考訳(メタデータ) (2023-11-07T21:27:17Z) - Understanding Addition in Transformers [2.44755919161855]
本稿では,n桁整数加算のために訓練された1層トランスフォーマーモデルの深さ解析について述べる。
本モデルでは,タスクを並列な桁別ストリームに分割し,異なる桁位置の異なるアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-10-19T19:34:42Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Learning to Reason With Relational Abstractions [65.89553417442049]
関係抽象化の考え方を用いて,言語モデルにおいてより強力な推論能力を構築する方法について検討する。
このようなシーケンスをプロンプトとして提供したモデルでは,タスクの精度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-06T00:27:50Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。
また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-01T17:22:31Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。