論文の概要: In-context Learning with Transformer Is Really Equivalent to a
Contrastive Learning Pattern
- arxiv url: http://arxiv.org/abs/2310.13220v1
- Date: Fri, 20 Oct 2023 01:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 00:55:35.863808
- Title: In-context Learning with Transformer Is Really Equivalent to a
Contrastive Learning Pattern
- Title(参考訳): トランスフォーマーによるコンテキスト内学習は、コントラスト学習パターンと本当に同等です
- Authors: Ruifeng Ren and Yong Liu
- Abstract要約: 本稿では,逆学習パターンの勾配降下過程としてICLの推論過程を解釈する。
我々の知識を最大限に活用するために、我々の研究は、対照的な学習の観点からICLの理解を提供する最初のものである。
- 参考スコア(独自算出の注目度): 11.329953476499712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained large language models based on Transformers have demonstrated
amazing in-context learning (ICL) abilities. Given several demonstration
examples, the models can implement new tasks without any parameter updates.
However, it is still an open question to understand the mechanism of ICL. In
this paper, we interpret the inference process of ICL as a gradient descent
process in a contrastive learning pattern. Firstly, leveraging kernel methods,
we establish the relationship between gradient descent and self-attention
mechanism under generally used softmax attention setting instead of linear
attention setting. Then, we analyze the corresponding gradient descent process
of ICL from the perspective of contrastive learning without negative samples
and discuss possible improvements of this contrastive learning pattern, based
on which the self-attention layer can be further modified. Finally, we design
experiments to support our opinions. To the best of our knowledge, our work is
the first to provide the understanding of ICL from the perspective of
contrastive learning and has the potential to facilitate future model design by
referring to related works on contrastive learning.
- Abstract(参考訳): トランスフォーマーをベースとした事前訓練された大規模言語モデルは、驚くべきインコンテキスト学習(ICL)能力を示した。
いくつかのデモ例が与えられると、モデルはパラメータ更新なしに新しいタスクを実装できる。
しかし、iclのメカニズムを理解することはまだ未解決の問題である。
本稿では,iclの推論過程を,対照学習パターンにおける勾配降下過程として解釈する。
まず,カーネル法を活用し,線形注意設定ではなく,一般に使用されるソフトマックス注意設定下での勾配降下とセルフアテンション機構の関係性を確立する。
そして, 負のサンプルを伴わない比較学習の観点からICLの勾配降下過程を解析し, 自己認識層をさらに修正可能な対比学習パターンの改善の可能性について考察する。
最後に、私たちの意見をサポートする実験をデザインします。
私たちの知識を最大限に活用するために、我々の研究は、コントラスト学習の観点からiclの理解を提供する最初の試みであり、コントラスト学習に関する関連作品を参照して、将来のモデル設計を促進する可能性を秘めています。
関連論文リスト
- Improving Speech Translation by Cross-Modal Multi-Grained Contrastive
Learning [8.501945512734268]
E2E-STに対するFCCL(Fine- and Coarse- Granularity Contrastive Learning)アプローチを提案する。
提案手法の重要な要素は,文レベルとフレームレベルの両方でコントラスト学習を適用し,リッチな意味情報を含む音声表現を抽出するための包括的なガイドを提供することである。
MuST-Cベンチマーク実験の結果,提案手法は8つの言語対に対して,最先端のE2E-STベースラインを大幅に上回ることがわかった。
論文 参考訳(メタデータ) (2023-04-20T13:41:56Z) - Model Sparsity Can Simplify Machine Unlearning [33.18951938708467]
最近のデータ規制要件に応えて、マシン・アンラーニング(MU)が重要なプロセスとして登場した。
本研究は,ウェイトプルーニングによるモデルスペーシフィケーションという,新しいモデルベース視点を紹介する。
理論と実践の両方において、モデルスパーシティは、近似アンラーナーのマルチ基準アンラーニング性能を高めることができることを示す。
論文 参考訳(メタデータ) (2023-04-11T02:12:02Z) - A Message Passing Perspective on Learning Dynamics of Contrastive
Learning [60.217972614379065]
特徴空間に対照的な目的を同等に配置すると、その学習力学は解釈可能な形式を持つことを示す。
この視点はまた、対照的な学習とメッセージパッシンググラフニューラルネットワーク(MP-GNN)の間の興味深い関係を確立する。
論文 参考訳(メタデータ) (2023-03-08T08:27:31Z) - ArCL: Enhancing Contrastive Learning with Augmentation-Robust
Representations [30.745749133759304]
我々は,自己教師付きコントラスト学習の伝達可能性を分析する理論的枠組みを開発する。
対照的な学習は、その伝達可能性を制限するような、ドメイン不変の機能を学ぶのに失敗することを示す。
これらの理論的知見に基づき、Augmentation-robust Contrastive Learning (ArCL) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T09:26:20Z) - Why Can GPT Learn In-Context? Language Models Implicitly Perform
Gradient Descent as Meta-Optimizers [93.9369467909176]
メタ最適化として言語モデルを説明し、文脈内学習を暗黙の微調整として理解する。
テキスト内学習は、複数の視点からの明示的な微調整と同様の振る舞いを示す。
バニラに対するパフォーマンスの向上は、別の観点からの理解をさらに後押しします。
論文 参考訳(メタデータ) (2022-12-20T18:58:48Z) - Mitigating Forgetting in Online Continual Learning via Contrasting
Semantically Distinct Augmentations [22.289830907729705]
オンライン連続学習(OCL)は、非定常データストリームからモデル学習を可能とし、新たな知識を継続的に獲得し、学習した知識を維持することを目的としている。
主な課題は、"破滅的な忘れる"問題、すなわち、新しい知識を学習しながら学習した知識を十分に記憶できないことにある。
論文 参考訳(メタデータ) (2022-11-10T05:29:43Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - Learning by Distillation: A Self-Supervised Learning Framework for
Optical Flow Estimation [71.76008290101214]
DistillFlowは光の流れを学ぶための知識蒸留手法である。
KITTIとSintelの両方のデータセット上で、最先端の教師なし学習性能を実現する。
我々のモデルは、KITTI 2015ベンチマークにおけるすべての単分子的手法の中で、第1位にランクされ、Sintel Finalベンチマークで発表されたすべてのメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-06-08T09:13:34Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。