論文の概要: How do Large Language Models Learn In-Context? Query and Key Matrices of
In-Context Heads are Two Towers for Metric Learning
- arxiv url: http://arxiv.org/abs/2402.02872v1
- Date: Mon, 5 Feb 2024 10:39:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 17:01:04.739310
- Title: How do Large Language Models Learn In-Context? Query and Key Matrices of
In-Context Heads are Two Towers for Metric Learning
- Title(参考訳): 大規模言語モデルはどのように文脈を学ぶか?
文脈内頭部の問合せと鍵行列はメトリクス学習のための2つの塔である
- Authors: Zeping Yu, Sophia Ananiadou
- Abstract要約: そこで本研究では,テキスト内学習のメカニズムを考察し,位置とプロジェクトを用いた仮説を提案する。
浅い層では、デモの特徴を対応するラベルにマージし、入力テキストの特徴を最後のトークンに集約する。
ディープレイヤでは、コンテキスト内ヘッドが大きな貢献をします。
- 参考スコア(独自算出の注目度): 23.004639058802898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the mechanism of in-context learning and propose a hypothesis
using locate-and-project method. In shallow layers, the features of
demonstrations are merged into their corresponding labels, and the features of
the input text are aggregated into the last token. In deep layers, in-context
heads make great contributions. In each in-context head, the value-output
matrix extracts the labels' features. Query and key matrices compute the
attention weights between the input text and each demonstration. The larger the
attention weight is, the more label information is transferred into the last
token for predicting the next word. Query and key matrices can be regarded as
two towers for learning the similarity metric between the input text and each
demonstration. Based on this hypothesis, we explain why imbalanced labels and
demonstration order affect predictions. We conduct experiments on GPT2 large,
Llama 7B, 13B and 30B. The results can support our analysis. Overall, our study
provides a new method and a reasonable hypothesis for understanding the
mechanism of in-context learning. Our code will be released on github.
- Abstract(参考訳): 文脈内学習のメカニズムを探究し,測位・計画法を用いて仮説を提案する。
浅い層では、デモの特徴を対応するラベルにマージし、入力テキストの特徴を最後のトークンに集約する。
深いレイヤでは、コンテキスト内ヘッドが大きな貢献をします。
各インコンテキストヘッドでは、値出力行列がラベルの特徴を抽出する。
クエリとキー行列は、入力テキストと各デモの間の注意重みを計算する。
注目重量が大きいほど、ラベル情報は次の単語を予測するために最後のトークンに転送される。
クエリとキー行列は、入力テキストと各デモンストレーションの類似度メトリックを学ぶための2つの塔とみなすことができる。
この仮説に基づいて,不均衡ラベルと実演順序が予測に影響を与える理由を説明する。
GPT2 大型 Llama 7B, 13B, 30B で実験を行った。
結果は我々の分析を裏付ける。
全体として、本研究は、文脈内学習のメカニズムを理解するための新しい方法と合理的仮説を提供する。
私たちのコードはgithubでリリースされます。
関連論文リスト
- Inference and Verbalization Functions During In-Context Learning [7.544880309193842]
大規模言語モデル(LM)は、推論中の新しいタスクを解決するために、いくつかのデモからコンテキスト内で学習することができる。
以前の研究では、いくつかの設定では、ICLのパフォーマンスは無関係なラベルによって最小限に影響を受けることが観察された。
我々は、LMが2つのシーケンシャルなプロセスを通して無関係なラベルでICLを実行すると仮定する:タスクを解く推論関数と、ラベル空間に推論された回答をマッピングする動詞化関数である。
論文 参考訳(メタデータ) (2024-10-12T03:31:37Z) - Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - Measuring Spurious Correlation in Classification: 'Clever Hans' in Translationese [11.478503501597967]
トピックベースの素早い相関に注目し,2つの方向から質問にアプローチする。
本研究では,教師なしトピックと対象分類ラベルとのアライメントを指標として,データ中の素早いトピック情報の表示方法を開発した。
本手法はクラスタリングにおける純度と同一であることを示し,分類のための「トピックフロア」(「ノイズフロア」など)を提案する。
論文 参考訳(メタデータ) (2023-08-25T04:19:58Z) - Bidirectional Attention as a Mixture of Continuous Word Experts [23.43970575326816]
双方向アテンション$x2013$は、位置エンコーディングとマスキング言語を備えた自己アテンションで構成されている。
意図しない前者とは何が違うのか?
両方向の注意は、線形な単語の類似を示すために、はるかに強い仮定を必要とすることが示される。
論文 参考訳(メタデータ) (2023-07-08T23:25:55Z) - GaussianMLR: Learning Implicit Class Significance via Calibrated
Multi-Label Ranking [0.0]
本稿では,ガウスMLRという新しい多ラベルランキング手法を提案する。
これは、正のラベルのランクを決定する暗黙のクラス重要性の値を学ぶことを目的としている。
提案手法は, 組み込まれた正のランク順の表現を正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-03-07T14:09:08Z) - Multi-label Classification with High-rank and High-order Label
Correlations [62.39748565407201]
従来の手法では, ラベル行列を低ランク行列係数化した潜在ラベル空間に変換することにより, 高階ラベル相関を捕えることができた。
本稿では,高次ラベル相関を明示的に記述する簡易かつ効果的な手法を提案し,同時にラベル行列の高次値を維持する。
12個のベンチマークデータセットの比較研究により,マルチラベル分類における提案アルゴリズムの有効性が検証された。
論文 参考訳(メタデータ) (2022-07-09T05:15:31Z) - A Theory-Driven Self-Labeling Refinement Method for Contrastive
Representation Learning [111.05365744744437]
教師なしのコントラスト学習は、正のイメージの作物と、負のイメージの作物とをラベル付けする。
本研究は, コントラスト学習において, 不正確なラベル割り当てがセマンティック・インスタンス識別の一般化を著しく損なうことを最初に証明する。
この理論に触発されて、コントラスト学習のための新しい自己ラベル改善手法を提案する。
論文 参考訳(メタデータ) (2021-06-28T14:24:52Z) - Estimating Instance-dependent Label-noise Transition Matrix using DNNs [66.29979882301265]
ラベルノイズ学習では、遷移行列の推定がホットトピックである。
本稿では,ベイズ最適分布から雑音分布への遷移を直接モデル化する。
この利点を生かして、ディープニューラルネットワークをパラメータ化してベイズラベル遷移行列を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:36:54Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。