論文の概要: The ROOTS Search Tool: Data Transparency for LLMs
- arxiv url: http://arxiv.org/abs/2302.14035v1
- Date: Mon, 27 Feb 2023 18:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 14:25:24.372602
- Title: The ROOTS Search Tool: Data Transparency for LLMs
- Title(参考訳): ROOTS検索ツール: LLMのデータ透明性
- Authors: Aleksandra Piktus, Christopher Akiki, Paulo Villegas, Hugo
Lauren\c{c}on, G\'erard Dupont, Alexandra Sasha Luccioni, Yacine Jernite,
Anna Rogers
- Abstract要約: ROOTSは、BLOOMのトレーニング用に開発された1.6TBの多言語テキストコーパスである。
本稿では,ROTS検索ツールについて紹介する。ROTSコーパス全体を対象とした,ファジィかつ正確な検索機能を備えた検索エンジンである。
- 参考スコア(独自算出の注目度): 116.63822284933002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ROOTS is a 1.6TB multilingual text corpus developed for the training of
BLOOM, currently the largest language model explicitly accompanied by
commensurate data governance efforts. In continuation of these efforts, we
present the ROOTS Search Tool: a search engine over the entire ROOTS corpus
offering both fuzzy and exact search capabilities. ROOTS is the largest corpus
to date that can be investigated this way. The ROOTS Search Tool is
open-sourced and available on Hugging Face Spaces. We describe our
implementation and the possible use cases of our tool.
- Abstract(参考訳): ROOTS は BLOOM のトレーニングのために開発された 1.6TB の多言語テキストコーパスである。
これらの取り組みの継続として, ファジィかつ正確な検索機能を備えたROTSコーパス全体を対象とした検索エンジンであるROTS Search Toolを提示する。
ROOTSは、これまでで最大のコーパスであり、この方法で調査することができる。
ROOTS Search Toolはオープンソースで、Hugging Face Spacesで利用できる。
ツールの実装と可能なユースケースについて説明する。
関連論文リスト
- ClusterTalk: Corpus Exploration Framework using Multi-Dimensional Exploratory Search [3.4123736336071864]
ClusterTalkは多次元探索探索を用いたコーパス探索のためのフレームワークである。
本システムでは,文書クラスタリングと顔検索を統合し,対話的に探索を洗練し,コーパスや文書レベルのクエリを問うことができる。
論文 参考訳(メタデータ) (2024-12-19T05:11:16Z) - Automating Thought of Search: A Journey Towards Soundness and Completeness [20.944440404347908]
大型言語モデル (LLMs) の定番の1つとして計画が残っている。
ToS(Thought of Search)は、計画上の問題を解決するループから人間を完全に取り除きます。
評価されたすべての領域の様々な大きさのLLMを用いて、最小限のフィードバックで100%の精度を達成する。
論文 参考訳(メタデータ) (2024-08-21T04:19:52Z) - ILiAD: An Interactive Corpus for Linguistic Annotated Data from Twitter Posts [0.0]
英語のTwitter投稿から言語コーパスの開発と展開について述べる。
主な目標は、言語分析のための完全な注釈付き英語コーパスを作ることであった。
形態や構文に関する情報に加えて,トークン化やレムマ,n-gramなどのNLP機能も含んでいます。
論文 参考訳(メタデータ) (2024-07-22T04:48:04Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval [56.65147231836708]
SWIM-IRは, 微調整多言語高密度検索のための33言語を含む合成検索訓練データセットである。
SAPは、ターゲット言語における情報クエリの生成において、大きな言語モデル(LLM)を支援する。
我々のモデルはSWIM-Xと呼ばれ、人間に指示された高密度検索モデルと競合する。
論文 参考訳(メタデータ) (2023-11-10T00:17:10Z) - ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world
APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。
データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。
ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文 参考訳(メタデータ) (2023-07-31T15:56:53Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - WeTS: A Benchmark for Translation Suggestion [32.10692757420455]
我々はemphWeTSと呼ばれる翻訳提案(TS)のためのベンチマークデータセットを作成する。
また,TSの性能を大幅に向上できる合成コーパスを生成するための新しい手法を提案する。
我々のモデルは、ドイツ語、ドイツ語、中国語、英語、中国語の4つの翻訳方向について、ステートオフ・ザ・アート(SOTA)の結果を達成する。
論文 参考訳(メタデータ) (2021-10-11T10:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。