論文の概要: Function Vectors in Large Language Models
- arxiv url: http://arxiv.org/abs/2310.15213v2
- Date: Sun, 25 Feb 2024 18:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 19:10:36.382181
- Title: Function Vectors in Large Language Models
- Title(参考訳): 大規模言語モデルにおける関数ベクトル
- Authors: Eric Todd, Millicent L. Li, Arnab Sen Sharma, Aaron Mueller, Byron C.
Wallace, David Bau
- Abstract要約: 自己回帰変換言語モデル(LM)内のベクトルとして入力出力関数を表す単純な神経機構の存在を報告する。
多様なコンテキスト内学習(ICL)タスクの因果媒介分析を用いて、少数の注意ヘッドがデモされたタスクのコンパクトな表現を伝達し、関数ベクトル(FV)と呼ぶ。
- 参考スコア(独自算出の注目度): 45.267194267587435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We report the presence of a simple neural mechanism that represents an
input-output function as a vector within autoregressive transformer language
models (LMs). Using causal mediation analysis on a diverse range of
in-context-learning (ICL) tasks, we find that a small number attention heads
transport a compact representation of the demonstrated task, which we call a
function vector (FV). FVs are robust to changes in context, i.e., they trigger
execution of the task on inputs such as zero-shot and natural text settings
that do not resemble the ICL contexts from which they are collected. We test
FVs across a range of tasks, models, and layers and find strong causal effects
across settings in middle layers. We investigate the internal structure of FVs
and find while that they often contain information that encodes the output
space of the function, this information alone is not sufficient to reconstruct
an FV. Finally, we test semantic vector composition in FVs, and find that to
some extent they can be summed to create vectors that trigger new complex
tasks. Our findings show that compact, causal internal vector representations
of function abstractions can be explicitly extracted from LLMs. Our code and
data are available at https://functions.baulab.info.
- Abstract(参考訳): 自己回帰的トランスフォーマー言語モデル(lms)における入力出力関数をベクトルとして表現する単純な神経機構の存在を報告する。
多様なコンテキスト内学習(ICL)タスクの因果媒介分析を用いて、少数の注意ヘッドがデモされたタスクのコンパクトな表現を伝達し、関数ベクトル(FV)と呼ぶ。
fvsはコンテキストの変化に対して堅牢である。すなわち、収集したiclコンテキストに似ていないゼロショットや自然テキストの設定などの入力に対して、タスクの実行をトリガーする。
さまざまなタスク、モデル、レイヤにわたってFVをテストし、中間層の設定に対して強力な因果効果を見つけます。
我々はFVの内部構造を調査し、関数の出力空間を符号化する情報をしばしば含んでいるが、この情報だけではFVを再構築するには不十分である。
最後に、fvsで意味ベクトル合成をテストし、それらがある程度要約されて、新しい複雑なタスクをトリガーするベクトルを生成することができることを見出します。
この結果から,LLMから関数抽象のコンパクトな因果ベクトル表現を抽出できることが示唆された。
私たちのコードとデータはhttps://functions.baulab.infoで利用可能です。
関連論文リスト
- Interpreting Attention Layer Outputs with Sparse Autoencoders [3.201633659481912]
モデルアクティベーションを解釈可能なコンポーネントに分解することは、機械的解釈可能性において鍵となるオープンな問題である。
この作業では、注意層出力でSAEをトレーニングし、ここでもSAEがスパースで解釈可能な分解を見つけることを示す。
Sparse Autoencodersは、研究者が以前の作業よりも詳細にモデル動作を説明するのに役立つツールであることを示す。
論文 参考訳(メタデータ) (2024-06-25T17:43:13Z) - Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.2976613483151]
トランスフォーマー言語モデル(LM)が、初期レイヤから後期レイヤに機能を渡すことが分かりました。
LMがこれを実現するために使用する特定のメカニズムを分析することで、リストからアイテムをリコールするためにも使用されることが分かる。
分析の結果,言語モデルの事前学習から得られた驚くほど複雑な解釈可能な構造が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T18:12:01Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - FIND: A Function Description Benchmark for Evaluating Interpretability
Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文 参考訳(メタデータ) (2023-09-07T17:47:26Z) - Adapting Language Models to Compress Contexts [71.98287002918941]
トランスフォーマーベースの言語モデル(LM)は強力で広く適用可能なツールであるが、その有用性は有限コンテキストウィンドウによって制限される。
本稿では,事前学習したLMを,長いコンテキストをコンパクトな要約ベクトルに圧縮可能なAutoCompressorに適応させることを提案する。
最大30,720個のトークンのシーケンスでOPTとLlama-2モデルを微調整し、AutoCompressorが長いコンテキストを使ってパープレキシティを向上できることを示す。
論文 参考訳(メタデータ) (2023-05-24T06:42:44Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Computing on Functions Using Randomized Vector Representations [4.066849397181077]
この新しい関数エンコーディングと計算フレームワーク Vector Function Architecture (VFA) と呼ぶ。
我々の分析と結果から,VFAは分散ニューラルネットワークにおける関数の表現と操作のための強力な新しいフレームワークとなっていることが示唆された。
論文 参考訳(メタデータ) (2021-09-08T04:39:48Z) - How LSTM Encodes Syntax: Exploring Context Vectors and Semi-Quantization
on Natural Text [2.881185491084005]
構文構造が暗黙的に与えられる言語モデルを学ぶ。
内部ゲートの出力である文脈更新ベクトルは、ほぼ2進あるいは3進の値に量子化されていることを示す。
文脈ベクトルのいくつかの次元について、それらのアクティベーションは句構造の深さと非常に相関していることを示す。
また、機能的単語の自然なクラスタと、フレーズをトリガーする音声の一部が、LSTMの文脈更新ベクトルの小さいが主部分空間で表現されることを示す。
論文 参考訳(メタデータ) (2020-10-01T12:49:01Z) - iffDetector: Inference-aware Feature Filtering for Object Detection [70.8678270164057]
Inference-aware Feature Filtering (IFF)モジュールを導入し、現代の検出器と簡単に組み合わせることができる。
IFFは、畳み込み機能を強化するためにハイレベルなセマンティクスを活用することでクローズドループ最適化を行う。
IFFはCNNベースの物体検出器とプラグアンドプレイ方式で融合でき、計算コストのオーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2020-06-23T02:57:29Z) - On Bottleneck Features for Text-Dependent Speaker Verification Using
X-vectors [20.829997825439886]
テキスト依存型話者検証(TD-SV)のためのxベクトルの検討
異なるボトルネック(BN)特徴がxベクトルの性能に与える影響について検討する。
実験はRedDots 2016 Challengeデータベース上で実施されている。
論文 参考訳(メタデータ) (2020-05-15T07:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。