論文の概要: Transformer verbatim in-context retrieval across time and scale
- arxiv url: http://arxiv.org/abs/2411.07075v1
- Date: Mon, 11 Nov 2024 15:50:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:10:13.103598
- Title: Transformer verbatim in-context retrieval across time and scale
- Title(参考訳): Transformer verbatim in-context search across time and scale
- Authors: Kristijan Armeni, Marko Pranjić, Senja Pollak,
- Abstract要約: 場合によっては、言語モデルはコンテキスト内情報を冗長に検索しなければならない。
本研究は, 学習過程の早い段階から, 言語内単語検索が急激な移行の中で発達したことを示す。
この結果から, 文脈内単語検索の発達はゼロショットベンチマークの学習と正の相関関係があることが判明した。
- 参考スコア(独自算出の注目度): 2.7941582470640784
- License:
- Abstract: To predict upcoming text, language models must in some cases retrieve in-context information verbatim. In this report, we investigated how the ability of language models to retrieve arbitrary in-context nouns developed during training (across time) and as language models trained on the same dataset increase in size (across scale). We then asked whether learning of in-context retrieval correlates with learning of more challenging zero-shot benchmarks. Furthermore, inspired by semantic effects in human short-term memory, we evaluated the retrieval with respect to a major semantic component of target nouns, namely whether they denote a concrete or abstract entity, as rated by humans. We show that verbatim in-context retrieval developed in a sudden transition early in the training process, after about 1% of the training tokens. This was observed across model sizes (from 14M and up to 12B parameters), and the transition occurred slightly later for the two smallest models. We further found that the development of verbatim in-context retrieval is positively correlated with the learning of zero-shot benchmarks. Around the transition point, all models showed the advantage of retrieving concrete nouns as opposed to abstract nouns. In all but two smallest models, the advantage dissipated away toward the end of training.
- Abstract(参考訳): 今後のテキストを予測するために、言語モデルは、場合によってはコンテキスト内情報を冗長に検索する必要がある。
本稿では,言語モデルが学習中に発達した任意の文脈内名詞を検索する能力(時間)と,同じデータセット上で訓練された言語モデルがサイズ(規模)を拡大する要因について検討した。
そこで我々は、文脈内検索の学習がより困難なゼロショットベンチマークの学習と相関するかどうかを問うた。
さらに,ヒトの短期記憶における意味的効果に触発されて,対象名詞の主要な意味的構成要素である具体的・抽象的な実体を人間によって評価されるかどうかを評価した。
本研究は,トレーニングトークンの約1%を経た後に,学習過程の早い段階から動詞の文脈内検索が発達したことを示す。
これはモデルサイズ(14Mおよび最大12Bパラメータ)で観測され、遷移は2つの最小モデルでわずかに遅れた。
さらに, テキスト内単語検索の開発は, ゼロショットベンチマークの学習と正の相関関係があることが判明した。
遷移点付近では、すべてのモデルは抽象名詞とは対照的に、具体的な名詞を検索する利点を示した。
2つの小さなモデルを除いて、その利点は訓練の終わりに消えていった。
関連論文リスト
- Dual Process Learning: Controlling Use of In-Context vs. In-Weights Strategies with Weight Forgetting [15.69952375347308]
言語モデルには、コンテキスト内学習(ICL)を実行する能力があり、コンテキストに基づいた振る舞いを柔軟に適応させることができる。
実演モデルと玩具モデルの両方を用いて、単純な音声設定における構造的インコンテキストアルゴリズムについて検討する。
モデルが新しい言語に一般化するのを助けるために最近導入された手法である能動的忘れ字法は、構造的コンテキスト内学習ソリューションを採用するようモデルに強制する。
論文 参考訳(メタデータ) (2024-05-28T21:38:20Z) - Revisiting a Pain in the Neck: Semantic Phrase Processing Benchmark for Language Models [10.482557806309174]
セマンティックフレーズ処理タスクにおける言語モデル(LM)のテストを可能にする総合評価スイートであるLexBenchを紹介する。
我々のベンチマークにより、モデルアーキテクチャにおける15のLMの性能と、分類、抽出、解釈タスクにおけるパラメータスケールを評価する。
我々のベンチマーク結果は,意味的フレーズ理解におけるLMの汎用的能力の向上を目的とした今後の研究に役立つだろう。
論文 参考訳(メタデータ) (2024-05-05T09:20:38Z) - Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning [32.178931149612644]
コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。
しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。
語彙定義意味論(vocabulary-defined semantics)を提案する。
論文 参考訳(メタデータ) (2024-01-29T14:29:48Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。
テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。
大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文 参考訳(メタデータ) (2023-05-24T01:40:57Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - On the Effect of Pretraining Corpora on In-context Learning by a
Large-scale Language Model [56.82120834538467]
韓国中心のGPT-3モデルにおいて,事前学習コーパスのソースとサイズが文脈内学習に与える影響について検討した。
テキスト内学習の性能はコーパス・ドメイン・ソースに大きく依存しており、事前学習コーパスのサイズがコンテキスト内学習の出現を決定するとは限らない。
論文 参考訳(メタデータ) (2022-04-28T13:59:54Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。