論文の概要: The ROOTS Search Tool: Data Transparency for LLMs
- arxiv url: http://arxiv.org/abs/2302.14035v1
- Date: Mon, 27 Feb 2023 18:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 14:25:24.372602
- Title: The ROOTS Search Tool: Data Transparency for LLMs
- Title(参考訳): ROOTS検索ツール: LLMのデータ透明性
- Authors: Aleksandra Piktus, Christopher Akiki, Paulo Villegas, Hugo
Lauren\c{c}on, G\'erard Dupont, Alexandra Sasha Luccioni, Yacine Jernite,
Anna Rogers
- Abstract要約: ROOTSは、BLOOMのトレーニング用に開発された1.6TBの多言語テキストコーパスである。
本稿では,ROTS検索ツールについて紹介する。ROTSコーパス全体を対象とした,ファジィかつ正確な検索機能を備えた検索エンジンである。
- 参考スコア(独自算出の注目度): 116.63822284933002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ROOTS is a 1.6TB multilingual text corpus developed for the training of
BLOOM, currently the largest language model explicitly accompanied by
commensurate data governance efforts. In continuation of these efforts, we
present the ROOTS Search Tool: a search engine over the entire ROOTS corpus
offering both fuzzy and exact search capabilities. ROOTS is the largest corpus
to date that can be investigated this way. The ROOTS Search Tool is
open-sourced and available on Hugging Face Spaces. We describe our
implementation and the possible use cases of our tool.
- Abstract(参考訳): ROOTS は BLOOM のトレーニングのために開発された 1.6TB の多言語テキストコーパスである。
これらの取り組みの継続として, ファジィかつ正確な検索機能を備えたROTSコーパス全体を対象とした検索エンジンであるROTS Search Toolを提示する。
ROOTSは、これまでで最大のコーパスであり、この方法で調査することができる。
ROOTS Search Toolはオープンソースで、Hugging Face Spacesで利用できる。
ツールの実装と可能なユースケースについて説明する。
関連論文リスト
- ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world
APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。
データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。
ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文 参考訳(メタデータ) (2023-07-31T15:56:53Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - WeTS: A Benchmark for Translation Suggestion [32.10692757420455]
我々はemphWeTSと呼ばれる翻訳提案(TS)のためのベンチマークデータセットを作成する。
また,TSの性能を大幅に向上できる合成コーパスを生成するための新しい手法を提案する。
我々のモデルは、ドイツ語、ドイツ語、中国語、英語、中国語の4つの翻訳方向について、ステートオフ・ザ・アート(SOTA)の結果を達成する。
論文 参考訳(メタデータ) (2021-10-11T10:52:17Z) - NeurST: Neural Speech Translation Toolkit [13.68036533544182]
NeurSTは、ByteDance AI Labが開発したニューラルネットワーク翻訳のためのオープンソースのツールキットです。
主にエンドツーエンドの音声翻訳に焦点を当てており、高度な音声翻訳の研究や製品に簡単に使用、修正、拡張できます。
論文 参考訳(メタデータ) (2020-12-18T02:33:58Z) - Interactive Extractive Search over Biomedical Corpora [41.72755714431404]
本稿では,生命科学研究者が言語的に注釈付けされたテキストのコーパスを検索できるようにするシステムを提案する。
本稿では,下層の言語表現の詳細を知る必要のない軽量なクエリ言語を提案する。
探索は,効率的な言語グラフインデクシングと検索エンジンにより,対話的な速度で行われる。
論文 参考訳(メタデータ) (2020-06-07T13:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。