論文の概要: Language Models "Grok" to Copy
- arxiv url: http://arxiv.org/abs/2409.09281v1
- Date: Sat, 14 Sep 2024 03:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 21:38:57.119255
- Title: Language Models "Grok" to Copy
- Title(参考訳): コピーのための言語モデル"Grok"
- Authors: Ang Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan,
- Abstract要約: 本稿では,先行する文脈からテキストをコピーする能力に着目し,言語モデルの事前学習のダイナミクスについて検討する。
本稿では,トランスフォーマーをベースとした言語モデルが,グルーキングと同様の模倣能力を発達させる,という新たな視点を提案する。
グラッキングとコンテキストコピーの関連性は、より効果的な言語モデルトレーニングに有用な洞察をもたらすと我々は主張する。
- 参考スコア(独自算出の注目度): 36.50007948478452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We examine the pre-training dynamics of language models, focusing on their ability to copy text from preceding context--a fundamental skill for various LLM applications, including in-context learning (ICL) and retrieval-augmented generation (RAG). We propose a novel perspective that Transformer-based language models develop copying abilities similarly to grokking, which refers to sudden generalization on test set long after the model fit to the training set. Our experiments yield three arguments: (1) The pre-training loss decreases rapidly, while the context copying ability of models initially lags and then abruptly saturates. (2) The speed of developing copying ability is independent of the number of tokens trained, similarly to how grokking speed is unaffected by dataset size as long as the data distribution is preserved. (3) Induction heads, the attention heads responsible for copying, form from shallow to deep layers during training, mirroring the development of circuits in deeper layers during grokking. We contend that the connection between grokking and context copying can provide valuable insights for more effective language model training, ultimately improving in-context performance. For example, we demonstrated that techniques that enhance grokking, such as regularization, either accelerate or enhance the development of context copying.
- Abstract(参考訳): 言語モデルの事前学習のダイナミクスについて検討し,先行する文脈からテキストをコピーする能力に着目した上で,インコンテキスト学習(ICL)や検索拡張生成(RAG)など,様々なLLMアプリケーションの基本的スキルについて考察する。
本稿では,トランスフォーマーをベースとした言語モデルが,グルーキングと同様の模倣能力を持つという新たな視点を提案する。
実験の結果,(1)事前学習損失は急速に減少し,一方でモデルのコンテキストコピー能力は低下し,突然飽和する,という3つの議論が得られた。
2) 複製能力の発達速度は,データ分布が保存されている限り,データセットサイズによってグルーキング速度が影響を受けないのと同じように,訓練されたトークンの数とは無関係である。
(3) 誘導ヘッド, 模倣に責任を負うアテンションヘッドは, トレーニング中に浅い層から深い層に形成され, グラッキング中に深い層に回路が発達する様子を反映している。
グラッキングとコンテキストコピーの関連性は、より効果的な言語モデルトレーニングのための貴重な洞察を与え、究極的にはコンテキスト内パフォーマンスを向上させることができる、と我々は主張する。
例えば、正規化のようなグラクキングを強化する技術は、文脈コピーの開発を加速または促進することを示した。
関連論文リスト
- CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Dwell in the Beginning: How Language Models Embed Long Documents for Dense Retrieval [31.9252824152673]
我々は、因果言語モデルにおける入力シーケンスの途中の情報損失を実証する以前の研究に基づいて構築した。
エンコーダ・デコーダモデルの訓練段階における位置バイアスについて,言語モデル事前学習,コントラスト事前学習,コントラスト微調整などを検討した。
論文 参考訳(メタデータ) (2024-04-05T15:16:16Z) - Vector-Quantized Prompt Learning for Paraphrase Generation [18.40940464497253]
本稿では、事前学習されたモデルにインスタンス依存のプロンプトを組み込むことにより、多種多様な高品質なパラフレーズを生成することを提案する。
大規模な実験により,提案手法は3つのベンチマークデータセットに対して新たな最先端結果が得られることを示した。
論文 参考訳(メタデータ) (2023-11-25T07:13:06Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。