論文の概要: How do Large Language Models Learn In-Context? Query and Key Matrices of In-Context Heads are Two Towers for Metric Learning
- arxiv url: http://arxiv.org/abs/2402.02872v2
- Date: Tue, 11 Jun 2024 12:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 22:42:29.120839
- Title: How do Large Language Models Learn In-Context? Query and Key Matrices of In-Context Heads are Two Towers for Metric Learning
- Title(参考訳): 大規模言語モデルはインコンテキストをどうやって学習するか? インコンテキストヘッドのクエリとキーマトリクスは、メトリック学習のための2つの塔である
- Authors: Zeping Yu, Sophia Ananiadou,
- Abstract要約: 文分類作業における文脈内学習(ICL)のメカニズムについて,意味的無関係なラベルを用いた検討を行った。
ICLの精度は87.6%から24.4%に大きく影響している。
- 参考スコア(独自算出の注目度): 19.472889262384818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the mechanism of in-context learning (ICL) on sentence classification tasks with semantically-unrelated labels ("foo"/"bar"). We find intervening in only 1\% heads (named "in-context heads") significantly affects ICL accuracy from 87.6\% to 24.4\%. To understand this phenomenon, we analyze the value-output vectors in these heads and discover that the vectors at each label position contain substantial information about the corresponding labels. Furthermore, we observe that the prediction shift from "foo" to "bar" is due to the respective reduction and increase in these heads' attention scores at "foo" and "bar" positions. Therefore, we propose a hypothesis for ICL: in in-context heads, the value-output matrices extract label features, while the query-key matrices compute the similarity between the features at the last position and those at each label position. The query and key matrices can be considered as two towers that learn the similarity metric between the last position's features and each demonstration at label positions. Using this hypothesis, we explain the majority label bias and recency bias in ICL and propose two methods to reduce these biases by 22\% and 17\%, respectively.
- Abstract(参考訳): 文分類作業における文脈内学習(ICL)のメカニズムを意味的に無関係なラベル(foo/bar)を用いて検討した。
ICL の精度は 87.6\% から 24.4\% に大きく影響している。
この現象を理解するために、これらのヘッド内の値出力ベクトルを分析し、各ラベル位置のベクトルが対応するラベルに関する実質的な情報を含んでいることを発見する。
さらに,「foo」から「bar」への予測シフトは,「foo」と「bar」の位置におけるこれらの頭部の注意点の減少と増加によるものと考えられた。
そこで本研究では,テキスト内ヘッドにおいて,値出力行列がラベル特徴を抽出し,問合せキー行列が最終位置と各ラベル位置の類似性を演算する,という仮説を提案する。
クエリとキー行列は、最後の位置の特徴とラベル位置でのそれぞれのデモンストレーションの類似度を学習する2つのタワーと見なすことができる。
この仮説を用いて、ICLにおける多数ラベルバイアスと回帰バイアスを説明し、これらのバイアスをそれぞれ22\%と17\%に減少させる2つの方法を提案する。
関連論文リスト
- Inference and Verbalization Functions During In-Context Learning [7.544880309193842]
大規模言語モデル(LM)は、推論中の新しいタスクを解決するために、いくつかのデモからコンテキスト内で学習することができる。
以前の研究では、いくつかの設定では、ICLのパフォーマンスは無関係なラベルによって最小限に影響を受けることが観察された。
我々は、LMが2つのシーケンシャルなプロセスを通して無関係なラベルでICLを実行すると仮定する:タスクを解く推論関数と、ラベル空間に推論された回答をマッピングする動詞化関数である。
論文 参考訳(メタデータ) (2024-10-12T03:31:37Z) - Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - Measuring Spurious Correlation in Classification: 'Clever Hans' in Translationese [11.478503501597967]
トピックベースの素早い相関に注目し,2つの方向から質問にアプローチする。
本研究では,教師なしトピックと対象分類ラベルとのアライメントを指標として,データ中の素早いトピック情報の表示方法を開発した。
本手法はクラスタリングにおける純度と同一であることを示し,分類のための「トピックフロア」(「ノイズフロア」など)を提案する。
論文 参考訳(メタデータ) (2023-08-25T04:19:58Z) - Bidirectional Attention as a Mixture of Continuous Word Experts [23.43970575326816]
双方向アテンション$x2013$は、位置エンコーディングとマスキング言語を備えた自己アテンションで構成されている。
意図しない前者とは何が違うのか?
両方向の注意は、線形な単語の類似を示すために、はるかに強い仮定を必要とすることが示される。
論文 参考訳(メタデータ) (2023-07-08T23:25:55Z) - GaussianMLR: Learning Implicit Class Significance via Calibrated
Multi-Label Ranking [0.0]
本稿では,ガウスMLRという新しい多ラベルランキング手法を提案する。
これは、正のラベルのランクを決定する暗黙のクラス重要性の値を学ぶことを目的としている。
提案手法は, 組み込まれた正のランク順の表現を正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-03-07T14:09:08Z) - Multi-label Classification with High-rank and High-order Label
Correlations [62.39748565407201]
従来の手法では, ラベル行列を低ランク行列係数化した潜在ラベル空間に変換することにより, 高階ラベル相関を捕えることができた。
本稿では,高次ラベル相関を明示的に記述する簡易かつ効果的な手法を提案し,同時にラベル行列の高次値を維持する。
12個のベンチマークデータセットの比較研究により,マルチラベル分類における提案アルゴリズムの有効性が検証された。
論文 参考訳(メタデータ) (2022-07-09T05:15:31Z) - A Theory-Driven Self-Labeling Refinement Method for Contrastive
Representation Learning [111.05365744744437]
教師なしのコントラスト学習は、正のイメージの作物と、負のイメージの作物とをラベル付けする。
本研究は, コントラスト学習において, 不正確なラベル割り当てがセマンティック・インスタンス識別の一般化を著しく損なうことを最初に証明する。
この理論に触発されて、コントラスト学習のための新しい自己ラベル改善手法を提案する。
論文 参考訳(メタデータ) (2021-06-28T14:24:52Z) - Estimating Instance-dependent Label-noise Transition Matrix using DNNs [66.29979882301265]
ラベルノイズ学習では、遷移行列の推定がホットトピックである。
本稿では,ベイズ最適分布から雑音分布への遷移を直接モデル化する。
この利点を生かして、ディープニューラルネットワークをパラメータ化してベイズラベル遷移行列を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:36:54Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。