論文の概要: LongTail-Swap: benchmarking language models' abilities on rare words
- arxiv url: http://arxiv.org/abs/2510.04268v1
- Date: Sun, 05 Oct 2025 16:17:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.55002
- Title: LongTail-Swap: benchmarking language models' abilities on rare words
- Title(参考訳): LongTail-Swap:レアワード上での言語モデルの能力のベンチマーク
- Authors: Robin Algayres, Charles-Éric Saint-James, Mahi Luthra, Jiayi Shen, Dongyan Lin, Youssef Benchekroun, Rashel Moritz, Juan Pino, Emmanuel Dupoux,
- Abstract要約: LongTail-Swapはディストリビューションのテールに焦点を当てたベンチマークである。
LMが新しい単語をほとんど露出せずに学習する能力を測定する。
LT-Swapは、許容できない文対と許容できない文対の、事前訓練されたコーパス固有のテストセットである。
- 参考スコア(独自算出の注目度): 16.946063624357745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Children learn to speak with a low amount of data and can be taught new words on a few-shot basis, making them particularly data-efficient learners. The BabyLM challenge aims at exploring language model (LM) training in the low-data regime but uses metrics that concentrate on the head of the word distribution. Here, we introduce LongTail-Swap (LT-Swap), a benchmark that focuses on the tail of the distribution, i.e., measures the ability of LMs to learn new words with very little exposure, like infants do. LT-Swap is a pretraining corpus-specific test set of acceptable versus unacceptable sentence pairs that isolate semantic and syntactic usage of rare words. Models are evaluated in a zero-shot fashion by computing the average log probabilities over the two members of each pair. We built two such test sets associated with the 10M words and 100M words BabyLM training sets, respectively, and evaluated 16 models from the BabyLM leaderboard. Our results not only highlight the poor performance of language models on rare words but also reveal that performance differences across LM architectures are much more pronounced in the long tail than in the head. This offers new insights into which architectures are better at handling rare word generalization. We've also made the code publicly avail
- Abstract(参考訳): 子どもたちは少ない量のデータで話すことを学び、数ショットで新しい言葉を教えることができ、特にデータ効率のよい学習者になる。
BabyLMの課題は、低データ体制における言語モデル(LM)トレーニングを探求することを目的としているが、単語分布の先頭に集中するメトリクスを使用している。
ここでは、分布の尾に焦点をあてたベンチマークであるLongTail-Swap(LT-Swap)を紹介する。
LT-Swapは、レアワードのセマンティックおよび構文的使用を分離する、許容されない文対と許容できない文対の事前訓練されたコーパス固有のテストセットである。
モデルは、各ペアの2つのメンバーの平均ログ確率を計算することにより、ゼロショット方式で評価される。
我々は,それぞれ10Mワードと100MワードのBabyLMトレーニングセットに関連する2つのテストセットを構築し,BabyLMリーダーボードから16のモデルを評価した。
本研究の結果は,稀な単語に対する言語モデルの性能の低下だけでなく,LMアーキテクチャ間の性能差が,頭部よりも長い尾において顕著であることを明らかにする。
これは、希少な単語の一般化を扱うのにどのアーキテクチャが優れているかについての新しい洞察を提供する。
コードも公開しました
関連論文リスト
- Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [84.03928547166873]
子どもたちは1億ワード未満の入力から言語を習得できる。
大規模な言語モデルはデータ効率がはるかに低く、通常は3~4桁以上のデータを必要とするが、多くの評価において人間ほど性能は高くない。
BabyLM Challengeは、参加者が固定データ予算で言語モデルトレーニングを最適化するために競う共同作業である。
論文 参考訳(メタデータ) (2025-04-10T23:22:43Z) - Towards Data-Efficient Language Models: A Child-Inspired Approach to Language Learning [2.565964707090901]
我々は,従来の大規模言語モデル (LLM) と比較して,データ量が大幅に少ない様々な言語モデル(LM)を訓練する手法を用いている。
そこで本研究では,主に児童向け文字起こしから得られた1000万語からなるキュレートデータセットに基づいて学習したモデルを構築した。
我々は語彙を32,000のトークンに減らし、言語習得の初期段階の子供たちの限られた語彙と整合させる。
論文 参考訳(メタデータ) (2025-03-06T16:57:26Z) - BabyLMs for isiXhosa: Data-Efficient Language Modelling in a Low-Resource Context [2.57490464660469]
BabyLMの課題は、参加者にサンプル効率の良い言語モデルを開発することであった。
申請は、子供が開発中に露出する単語の量に制限される、固定された英語コーパスで事前訓練された。
データ効率のよい言語モデリングのための新しいアーキテクチャは、数兆ワードで訓練されたモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-01-07T15:13:45Z) - The Neglected Tails in Vision-Language Models [51.79913798808725]
視覚言語モデル(VLM)はゼロショット認識において優れているが,その性能は視覚的概念によって大きく異なる。
ゼロショットVLMの不均衡性能を軽減するために,Retrieval-Augmented Learning (REAL)を提案する。
論文 参考訳(メタデータ) (2024-01-23T01:25:00Z) - Paloma: A Benchmark for Evaluating Language Model Fit [112.481957296585]
言語モデル (LM) の評価では、トレーニングから切り離されたモノリシックなデータに難易度が報告されるのが一般的である。
Paloma(Perplexity Analysis for Language Model Assessment)は、546の英語およびコードドメインに適合するLMを測定するベンチマークである。
論文 参考訳(メタデータ) (2023-12-16T19:12:45Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Pre-training LLMs using human-like development data corpus [3.5757761767474876]
我々は,子どもが見るのとほぼ同じ数のトークンを用いて,文脈的単語表現を学習する能力について,LLM(Large Language Models)を事前訓練し評価する。
異なるアーキテクチャで、エポック間のパフォーマンスの変化を評価し、タスクの厳密で厳密なトラックに対する事前トレーニングメトリクスを報告します。
論文 参考訳(メタデータ) (2023-11-08T13:13:23Z) - Mini Minds: Exploring Bebeshka and Zlata Baby Models [3.558894829990311]
本稿では,リヨン2大学がBabyLMコンペティションのStrict-Smallトラックに応募したことを述べる。
評価のために提出された2つの小型言語モデル(LM)を紹介する。
ベースラインLMの半分のスケールであるにもかかわらず、提案したモデルは同等の性能を実現している。
論文 参考訳(メタデータ) (2023-11-06T16:01:10Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。