論文の概要: Koala: An Index for Quantifying Overlaps with Pre-training Corpora
- arxiv url: http://arxiv.org/abs/2303.14770v1
- Date: Sun, 26 Mar 2023 16:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 17:42:33.239890
- Title: Koala: An Index for Quantifying Overlaps with Pre-training Corpora
- Title(参考訳): Koala: 事前トレーニングコーパスによるオーバーラップの定量化指標
- Authors: Thuy-Trang Vu, Xuanli He, Gholamreza Haffari, Ehsan Shareghi
- Abstract要約: コアラは、大きな事前学習コーパス上の検索可能なインデックスである。
現在のベンチマークと将来のベンチマークに関する法医学的な分析を行うためのフレームワークを提供する。
- 参考スコア(独自算出の注目度): 52.98917878079683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In very recent years more attention has been placed on probing the role of
pre-training data in Large Language Models (LLMs) downstream behaviour. Despite
the importance, there is no public tool that supports such analysis of
pre-training corpora at large scale. To help research in this space, we launch
Koala, a searchable index over large pre-training corpora using compressed
suffix arrays with highly efficient compression rate and search support. In its
first release we index the public proportion of OPT 175B pre-training data.
Koala provides a framework to do forensic analysis on the current and future
benchmarks as well as to assess the degree of memorization in the output from
the LLMs. Koala is available for public use at
https://koala-index.erc.monash.edu/.
- Abstract(参考訳): 近年では,大規模言語モデル(llm)のダウンストリーム動作における事前トレーニングデータの役割の検証に注目が集まっている。
その重要性にもかかわらず、大規模な事前学習コーパスの分析を支援する公開ツールは存在しない。
この空間の研究を支援するために,圧縮接尾辞アレイを用いた大規模事前学習コーパス上での探索可能なインデックスであるKoalaを高効率な圧縮率と探索支援で立ち上げる。
最初のリリースでは、OPT 175B事前トレーニングデータの公開比率をインデックス化しています。
Koalaは、現在のベンチマークと将来のベンチマークに関する法医学的な分析を行うためのフレームワークを提供し、LLMからの出力の記憶度を評価する。
koalaはhttps://koala-index.erc.monash.edu/で公開されている。
関連論文リスト
- LeCo: Lightweight Compression via Learning Serial Correlations [9.108815508920882]
軽量データ圧縮は、カラムストアが分析クエリのパフォーマンスを向上する鍵となる技術である。
本稿では,機械学習を用いて値列内のシリアル冗長性を自動的に除去するフレームワークであるLeCo(Learned Compression)を提案する。
我々は、Arrow列実行エンジンのデータ解析クエリで最大5.2倍のスピードで、RocksDBのスループットが16%向上するのを観察した。
論文 参考訳(メタデータ) (2023-06-27T10:46:36Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Domain-matched Pre-training Tasks for Dense Retrieval [68.07140087626637]
モデルサイズがますます大きくなる大規模データセットでの事前トレーニングは、ほぼすべてのNLPタスクのパフォーマンス向上のための実証済みのレシピである。
適切な事前トレーニング設定で、この障壁を克服できることが示されています。
1)最近リリースされた6500万の合成された質問セットと、既存のReddit会話のデータセットから2億のポストコメンデーションペアをトレーニングすることで、これを実証する。
論文 参考訳(メタデータ) (2021-07-28T19:13:00Z) - Rethinking Pre-training and Self-training [105.27954735761678]
我々は、同じ設定で追加データを利用する別の方法として自己学習を調査し、ImageNet事前学習と対比する。
本研究は, 自己学習の汎用性と柔軟性について, 3つの考察を加えて明らかにした。
例えば、COCOオブジェクト検出データセットでは、ラベル付きデータの5分の1を使用すると事前トレーニングのメリットがあり、ラベル付きデータのすべてを使用すると精度が低下します。
論文 参考訳(メタデータ) (2020-06-11T23:59:16Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。