Fugu-MT 論文翻訳(概要): Language model developers should report train-test overlap

論文の概要: Language model developers should report train-test overlap

arxiv url: http://arxiv.org/abs/2410.08385v1
Date: Thu, 10 Oct 2024 21:44:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 03:36:35.294580
Title: Language model developers should report train-test overlap
Title（参考訳）: 言語モデル開発者は、トレイン-テストの重複を報告すべきである
Authors: Andy K Zhang, Kevin Klyman, Yifan Mai, Yoav Levine, Yian Zhang, Rishi Bommasani, Percy Liang,
Abstract要約: 30人のモデル開発者のプラクティスを文書化して、トレイン-テストの重複を報告しているのは9人だけです。私たちの仕事は、モデル評価に対するコミュニティ全体の信頼を高めるために、電車とテストの重複に対する透明性を高めることを願っています。
参考スコア（独自算出の注目度）: 52.523638165129505
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models are extensively evaluated, but correctly interpreting evaluation results requires knowledge of train-test overlap which refers to the extent to which the language model is trained on the very data it is being tested on. The public currently lacks adequate information about train-test overlap: most models have no public train-test overlap statistics, and third parties cannot directly measure train-test overlap since they do not have access to the training data. To make this clear, we document the practices of 30 model developers, finding that just 9 developers report train-test overlap: 4 developers release training data under open-source licenses, enabling the community to directly measure train-test overlap, and 5 developers publish their train-test overlap methodology and statistics. By engaging with language model developers, we provide novel information about train-test overlap for three additional developers. Overall, we take the position that language model developers should publish train-test overlap statistics and/or training data whenever they report evaluation results on public test sets. We hope our work increases transparency into train-test overlap to increase the community-wide trust in model evaluations.
Abstract（参考訳）: 言語モデルは広範囲に評価されているが、評価結果を正しく解釈するには、テスト中のデータに基づいて言語モデルがトレーニングされる範囲を示す、列車とテストのオーバーラップに関する知識が必要である。一般には、列車とテストの重複に関する十分な情報がない:ほとんどのモデルは、公共の列車とテストの重複統計を持っておらず、第三者は訓練データにアクセスできないため、直接列車とテストの重複を計測できない。 4人の開発者がオープンソースライセンスの下でトレーニングデータをリリースし、コミュニティが直接トレインテストのオーバーラップを計測できるようにし、5人の開発者がトレインテストのオーバーラップ方法論と統計を公開します。言語モデル開発者の関与により、3人の開発者に対して、トレイン-テストの重複に関する新しい情報を提供する。全体として、公的なテストセットの評価結果を報告する際には、言語モデル開発者が重なり合う統計データや/またはトレーニングデータを公開すべきという立場を取る。私たちの仕事は、モデル評価に対するコミュニティ全体の信頼を高めるために、電車とテストの重複に対する透明性を高めることを願っています。

関連論文リスト

Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [84.03928547166873]
子どもたちは1億ワード未満の入力から言語を習得できる。大規模な言語モデルはデータ効率がはるかに低く、通常は3～4桁以上のデータを必要とするが、多くの評価において人間ほど性能は高くない。 BabyLM Challengeは、参加者が固定データ予算で言語モデルトレーニングを最適化するために競う共同作業である。
論文参考訳（メタデータ） (2025-04-10T23:22:43Z)
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training [94.14908801708049]
我々は、完全にオープンな最先端の訓練後モデルであるT"ULU 3を紹介する。 T"ULU 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
論文参考訳（メタデータ） (2024-11-22T18:44:04Z)
Reproducing Whisper-Style Training Using an Open-Source Toolkit and Publicly Available Data [75.7383558074758]
本研究はWhisperスタイル音声モデル(OWSM)を提案する。 OWSMはオープンソースツールキットと公開データを使ってWhisperスタイルのトレーニングを再現する。データ準備、トレーニング、推論、スコアリングに使用されるすべてのスクリプトと、オープンサイエンスを促進するための事前訓練されたモデルとトレーニングログを公開します。
論文参考訳（メタデータ） (2023-09-25T05:01:34Z)
The CRINGE Loss: Learning what language not to model [35.40992193113732]
ポジティブなトレーニングデータが多くても、比較的少量のネガティブなデータで緩和できる問題は残っています。 CRINGE損失(ContRastive Iterative Negative GEneration)と呼ばれるデータを用いたトレーニング手法を提案する。私たちのモデルは、複数の強力なベースラインを上回り、概念的にはシンプルで、訓練と実装が容易です。
論文参考訳（メタデータ） (2022-11-10T19:30:08Z)
Explain, Edit, and Understand: Rethinking User Study Design for Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文参考訳（メタデータ） (2021-12-17T18:29:56Z)
BERT Fine-Tuning for Sentiment Analysis on Indonesian Mobile Apps Reviews [1.5749416770494706]
本研究では,2種類の事前学習モデルを用いた感情分析における細調整BERTの有効性について検討した。使用されるデータセットは、インドネシアのGoogle Playサイトで2020年のトップ10アプリのユーザーレビューである。また,2つのトレーニングデータラベリング手法を用いて,スコアベースとレキシコンベースのモデルの有効性を検証した。
論文参考訳（メタデータ） (2021-07-14T16:00:15Z)
Deduplicating Training Data Makes Language Models Better [50.22588162039083]
既存の言語モデリングデータセットには、多くのほぼ重複した例と長い反復が含まれている。これらのデータセットでトレーニングされた言語モデルの未学習出力の1%以上が、トレーニングデータから冗長にコピーされている。トレーニングデータセットを分離する2つのツールを開発しています。
論文参考訳（メタデータ） (2021-07-14T06:06:52Z)
Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。一つの例から5つの例への適応が可能であることを示す。本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文参考訳（メタデータ） (2021-03-31T09:05:43Z)
Pre-Training BERT on Arabic Tweets: Practical Considerations [11.087099497830552]
トレーニングセットのサイズ、形式と非公式のアラビア語の混合、言語前処理の5つのBERTモデルを事前訓練した。すべてアラビア方言とソーシャルメディアをサポートすることを意図している。新しいモデルは、いくつかの下流タスクで最新の結果を達成します。
論文参考訳（メタデータ） (2021-02-21T20:51:33Z)
Learning from Imperfect Annotations [15.306536555936692]
現在、多くの機械学習システムは、大量の人間の注釈付きデータに基づいて訓練されている。モデルトレーニングとアグリゲーションステップをマージすることを可能にする新しいエンドツーエンドフレームワークを提案する。アノテーションを集約する現在の最先端アプローチに比べて、精度が最大25%向上していることを示す。
論文参考訳（メタデータ） (2020-04-07T15:21:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。