Fugu-MT 論文翻訳(概要): Understanding In-Context Learning via Supportive Pretraining Data

論文の概要: Understanding In-Context Learning via Supportive Pretraining Data

arxiv url: http://arxiv.org/abs/2306.15091v1
Date: Mon, 26 Jun 2023 22:14:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-28 15:18:23.733989
Title: Understanding In-Context Learning via Supportive Pretraining Data
Title（参考訳）: 支援的事前学習データによる文脈内学習の理解
Authors: Xiaochuang Han, Daniel Simig, Todor Mihaylov, Yulia Tsvetkov, Asli Celikyilmaz, Tianlu Wang
Abstract要約: In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。 ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
参考スコア（独自算出の注目度）: 55.648777340129364
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In-context learning (ICL) improves language models' performance on a variety of NLP tasks by simply demonstrating a handful of examples at inference time. It is not well understood why ICL ability emerges, as the model has never been specifically trained on such demonstrations. Unlike prior work that explores implicit mechanisms behind ICL, we study ICL via investigating the pretraining data. Specifically, we first adapt an iterative, gradient-based approach to find a small subset of pretraining data that supports ICL. We observe that a continued pretraining on this small subset significantly improves the model's ICL ability, by up to 18%. We then compare the supportive subset constrastively with random subsets of pretraining data and discover: (1) The supportive pretraining data to ICL do not have a higher domain relevance to downstream tasks. (2) The supportive pretraining data have a higher mass of rarely occurring, long-tail tokens. (3) The supportive pretraining data are challenging examples where the information gain from long-range context is below average, indicating learning to incorporate difficult long-range context encourages ICL. Our work takes a first step towards understanding ICL via analyzing instance-level pretraining data. Our insights have a potential to enhance the ICL ability of language models by actively guiding the construction of pretraining data in the future.
Abstract（参考訳）: In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。 ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。 iclの背後にある暗黙のメカニズムを探求する先行研究とは異なり、プリトレーニングデータを調べることでiclを研究する。具体的には、まず、ICLをサポートする事前学習データの小さなサブセットを見つけるために、反復的な勾配に基づくアプローチを適用する。この小部分集合に対する継続的な事前訓練は、モデルのicl能力を大幅に向上させ、最大で18%向上させる。 1) iclに対する支援的事前訓練データは、下流タスクにより高いドメイン的関連性を持っていない。 2)サポート型事前訓練データは、稀に発生するロングテールトークンの質量が高い。 3) 支援的事前学習データは, 長期的文脈からの情報獲得が平均以下である難解な例であり, 難易度の高い長期的文脈を取り込む学習がiclを促進することを示す。我々の研究は、インスタンスレベルの事前学習データを分析してICLを理解するための第一歩を踏み出した。我々の洞察は、将来、事前学習データの構築を積極的に導くことで、言語モデルのICL能力を高める可能性がある。

関連論文リスト

Large Language Models are Demonstration Pre-Selectors for Themselves [57.101804269100185]
大規模言語モデル(LLM)を備えたインコンテキスト学習(ICL)は、トレーニングデータ全体から数ショットのデモを選択することで、強力な数ショットのパフォーマンスを提供する。 FEw yet Essential Demonstration prE-selectoRは、デモの代表的なサブセットを特定する新しい事前選択フレームワークである。 FEwでもEssential Demonstration prE-selectoRは、パフォーマンスを維持しながら、トレーニングデータのサイズを20%以上削減できる。
論文参考訳（メタデータ） (2025-06-06T12:29:03Z)
Mechanistic Fine-tuning for In-context Learning [3.8645776186425755]
In-context Learning (ICL) は、本来ICLスタイルのデータに基づいて事前訓練されていない言語モデル (LM) 上の少数ショット学習を誘導する。 ICLと事前学習のギャップを埋めるために、計算コストの大きいエンドツーエンドパラダイムを用いて、大規模なICLスタイルのデータセット上での微調整LMにアプローチするものもある。本稿では,アテンション行動ファインタニング(ABFT)を提案し,アテンションスコアを最終的な出力ではなく,適切なラベルトークンに集中させる。
論文参考訳（メタデータ） (2025-05-20T11:41:21Z)
Towards Auto-Regressive Next-Token Prediction: In-Context Learning Emerges from Generalization [26.9153121765435]
大規模言語モデル(LLM)は、文脈内学習能力を顕著に示している。本稿では,ICLの出現と事前学習がICLに与える影響について検討する。我々の理論は、数値線形力学系、合成GINC、実世界の言語データセットの実験によって支持されている。
論文参考訳（メタデータ） (2025-02-24T10:26:29Z)
What Matters for In-Context Learning: A Balancing Act of Look-up and In-Weight Learning [42.8453045943264]
ICLには,データシーケンスにおける概念的反復が不可欠であることを示す。また、ICLの出現は、重み付き学習目標とコンテキスト内問題解決能力のバランスに依存することを示した。
論文参考訳（メタデータ） (2025-01-09T09:45:05Z)
ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods [56.073335779595475]
ReCaLL (Relative Conditional Log-Likelihood) という新しいメンバーシップ推論攻撃(MIA)を提案する。 ReCaLLは、ターゲットデータポイントを非メンバーコンテキストでプレフィックスする場合、条件付きログライクな状態の相対的変化を調べる。我々は総合的な実験を行い、ReCaLLがWikiMIAデータセット上で最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2024-06-23T00:23:13Z)
Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning [99.05401042153214]
In-context Learning(ICL)は、タスク認識(TR)とタスク学習(TL)の2つの主要な能力に起因する可能性がある。 ICLの出現の事前学習のダイナミクスを調べることで、第一歩を踏み出す。そこで本研究では,この2つの機能を推論時によりよく統合するための,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2024-06-20T06:37:47Z)
From Unstructured Data to In-Context Learning: Exploring What Tasks Can Be Learned and When [19.841163050181194]
トランスフォーマーのような大きな言語モデル(LLM)は、インコンテキスト学習(ICL)機能を示す。我々は、非構造化データで訓練されたモデルにおいて、ICLを実現するために、重要なシーケンスモデル要件とデータ構造について検討する。我々は,非構造化データにおける意味的関連語対の共起から,多くのICL機能が出現することを発見した。 In one in logic reasoning task that requires generalization to new, unseen pattern, and another in analogy completion where relevant word pairs appears in fixed training position。
論文参考訳（メタデータ） (2024-05-31T18:46:06Z)
Parallel Structures in Pre-training Data Yield In-Context Learning [41.27837171531926]
我々は、事前学習データのパターンが文脈内学習(ICL)にどのような寄与するかを検討する。 LMのICL能力は、事前学習データで$textitparallel構造に依存している。
論文参考訳（メタデータ） (2024-02-19T20:40:48Z)
DAIL: Data Augmentation for In-Context Learning via Self-Paraphrase [37.68804898063595]
In-Context Learning (ICL)と事前訓練された大規模言語モデルを組み合わせることで、様々なNLPタスクにおいて有望な結果が得られた。 textbfData textbfAugmentation for textbfIn-Context textbfLearning (textbfDAIL)を提案する。
論文参考訳（メタデータ） (2023-11-06T18:12:55Z)
Foundational Models for Continual Learning: An Empirical Study of Latent Replay [17.322679682451597]
本稿では,下流の連続学習シナリオの基礎として,事前学習型視覚モデルの有効性について検討する。大規模ベンチマークシナリオにおける各種事前学習モデルの有効性を,潜時および生データ空間におけるバニラ再生設定と比較した。
論文参考訳（メタデータ） (2022-04-30T19:11:37Z)
Bridging the Gap between Language Models and Cross-Lingual Sequence Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文参考訳（メタデータ） (2022-04-11T15:55:20Z)
From Good to Best: Two-Stage Training for Cross-lingual Machine Reading Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文参考訳（メタデータ） (2021-12-09T07:31:15Z)
On the Transferability of Pre-trained Language Models: A Study from Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文参考訳（メタデータ） (2021-09-08T10:39:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。