論文の概要: How do Large Language Models Learn In-Context? Query and Key Matrices of
In-Context Heads are Two Towers for Metric Learning
- arxiv url: http://arxiv.org/abs/2402.02872v1
- Date: Mon, 5 Feb 2024 10:39:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 17:01:04.739310
- Title: How do Large Language Models Learn In-Context? Query and Key Matrices of
In-Context Heads are Two Towers for Metric Learning
- Title(参考訳): 大規模言語モデルはどのように文脈を学ぶか?
文脈内頭部の問合せと鍵行列はメトリクス学習のための2つの塔である
- Authors: Zeping Yu, Sophia Ananiadou
- Abstract要約: そこで本研究では,テキスト内学習のメカニズムを考察し,位置とプロジェクトを用いた仮説を提案する。
浅い層では、デモの特徴を対応するラベルにマージし、入力テキストの特徴を最後のトークンに集約する。
ディープレイヤでは、コンテキスト内ヘッドが大きな貢献をします。
- 参考スコア(独自算出の注目度): 23.004639058802898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the mechanism of in-context learning and propose a hypothesis
using locate-and-project method. In shallow layers, the features of
demonstrations are merged into their corresponding labels, and the features of
the input text are aggregated into the last token. In deep layers, in-context
heads make great contributions. In each in-context head, the value-output
matrix extracts the labels' features. Query and key matrices compute the
attention weights between the input text and each demonstration. The larger the
attention weight is, the more label information is transferred into the last
token for predicting the next word. Query and key matrices can be regarded as
two towers for learning the similarity metric between the input text and each
demonstration. Based on this hypothesis, we explain why imbalanced labels and
demonstration order affect predictions. We conduct experiments on GPT2 large,
Llama 7B, 13B and 30B. The results can support our analysis. Overall, our study
provides a new method and a reasonable hypothesis for understanding the
mechanism of in-context learning. Our code will be released on github.
- Abstract(参考訳): 文脈内学習のメカニズムを探究し,測位・計画法を用いて仮説を提案する。
浅い層では、デモの特徴を対応するラベルにマージし、入力テキストの特徴を最後のトークンに集約する。
深いレイヤでは、コンテキスト内ヘッドが大きな貢献をします。
各インコンテキストヘッドでは、値出力行列がラベルの特徴を抽出する。
クエリとキー行列は、入力テキストと各デモの間の注意重みを計算する。
注目重量が大きいほど、ラベル情報は次の単語を予測するために最後のトークンに転送される。
クエリとキー行列は、入力テキストと各デモンストレーションの類似度メトリックを学ぶための2つの塔とみなすことができる。
この仮説に基づいて,不均衡ラベルと実演順序が予測に影響を与える理由を説明する。
GPT2 大型 Llama 7B, 13B, 30B で実験を行った。
結果は我々の分析を裏付ける。
全体として、本研究は、文脈内学習のメカニズムを理解するための新しい方法と合理的仮説を提供する。
私たちのコードはgithubでリリースされます。
関連論文リスト
- Exploring Demonstration Ensembling for In-context Learning [75.35436025709049]
In-context Learning (ICL) は、与えられたタスクに対する入出力ペアの言語モデル(LM)の例を示す。
ICLの標準的なアプローチは、LMdのデモとテスト入力の促進である。
本研究は,単純な結合の代替として,DENSE(Demonstration Ensembling)を探索する。
論文 参考訳(メタデータ) (2023-08-17T04:45:19Z) - Analyzing Text Representations by Measuring Task Alignment [2.198430261120653]
階層的クラスタリングに基づくタスクアライメントスコアを構築し,異なるレベルの粒度でアライメントを測定する。
テキスト分類実験は、タスクアライメントが与えられた表現の分類性能を説明することができることを示すことによって、我々の仮説を検証する。
論文 参考訳(メタデータ) (2023-05-31T11:20:48Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Distinguishability Calibration to In-Context Learning [31.375797763897104]
そこで本研究では, PLM符号化埋め込みを新しい距離空間にマッピングすることで, 埋め込みの識別性を保証する手法を提案する。
また、双曲的埋め込みの利点を生かして、粒度の細かいクラス関連トークン埋め込み間の階層的関係を捉える。
論文 参考訳(メタデータ) (2023-02-13T09:15:00Z) - Auxiliary Task Guided Interactive Attention Model for Question
Difficulty Prediction [6.951136079043972]
本稿では,対話型注意機構を持つマルチタスク手法Qdiffを提案し,ブルームの分類と難易度を共同で予測する。
提案手法は,ブルームの分類学と難易度ラベルの関係を捉えた表現の学習を支援する。
論文 参考訳(メタデータ) (2022-05-24T19:55:30Z) - Rethinking the Role of Demonstrations: What Makes In-Context Learning
Work? [112.72413411257662]
大規模言語モデル(LM)は、いくつかのインプットラベルペア(デモ)を条件付けして、新しいインプットの予測を行うことで、インコンテキストで学習することができる。
実演のラベルをランダムに置き換えることは、パフォーマンスをほとんど損なうものではない。
デモの他の側面が、エンドタスクのパフォーマンスの主要な要因であることに気付きました。
論文 参考訳(メタデータ) (2022-02-25T17:25:19Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Attention improves concentration when learning node embeddings [1.2233362977312945]
検索クエリテキストでラベル付けされたノードを考えると、製品を共有する関連クエリへのリンクを予測したい。
様々なディープニューラルネットワークを用いた実験では、注意機構を備えた単純なフィードフォワードネットワークが埋め込み学習に最適であることが示されている。
本稿では,クエリ生成モデルであるAttESTを提案する。このモデルでは,製品とクエリテキストの両方を,潜在空間に埋め込まれたベクトルとして見ることができる。
論文 参考訳(メタデータ) (2020-06-11T21:21:12Z) - Document Modeling with Graph Attention Networks for Multi-grained
Machine Reading Comprehension [127.3341842928421]
Natural Questionsは、新しい挑戦的な機械読解ベンチマークである。
解答は2つあり、長解(典型的には1段落)と短解(長解の内にある1つ以上の実体)である。
既存の方法は、これらの2つのサブタスクをトレーニング中に個別に扱い、依存関係を無視します。
本稿では,文書を階層的にモデル化する多層機械読解フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-12T14:20:09Z) - Short Text Classification via Knowledge powered Attention with
Similarity Matrix based CNN [6.6723692875904375]
本稿では,類似度行列に基づく畳み込みニューラルネットワーク(KASM)モデルを用いた知識駆動型アテンションを提案する。
我々は知識グラフ(KG)を用いて短文の意味表現を強化する。
知識の重要性を測定するために,重要な情報を選択するための注意機構を導入する。
論文 参考訳(メタデータ) (2020-02-09T12:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。