Fugu-MT 論文翻訳(概要): The ROOTS Search Tool: Data Transparency for LLMs

論文の概要: The ROOTS Search Tool: Data Transparency for LLMs

arxiv url: http://arxiv.org/abs/2302.14035v1
Date: Mon, 27 Feb 2023 18:45:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-28 14:25:24.372602
Title: The ROOTS Search Tool: Data Transparency for LLMs
Title（参考訳）: ROOTS検索ツール: LLMのデータ透明性
Authors: Aleksandra Piktus, Christopher Akiki, Paulo Villegas, Hugo Lauren\c{c}on, G\'erard Dupont, Alexandra Sasha Luccioni, Yacine Jernite, Anna Rogers
Abstract要約: ROOTSは、BLOOMのトレーニング用に開発された1.6TBの多言語テキストコーパスである。本稿では,ROTS検索ツールについて紹介する。ROTSコーパス全体を対象とした,ファジィかつ正確な検索機能を備えた検索エンジンである。
参考スコア（独自算出の注目度）: 116.63822284933002
License: http://creativecommons.org/licenses/by/4.0/
Abstract: ROOTS is a 1.6TB multilingual text corpus developed for the training of BLOOM, currently the largest language model explicitly accompanied by commensurate data governance efforts. In continuation of these efforts, we present the ROOTS Search Tool: a search engine over the entire ROOTS corpus offering both fuzzy and exact search capabilities. ROOTS is the largest corpus to date that can be investigated this way. The ROOTS Search Tool is open-sourced and available on Hugging Face Spaces. We describe our implementation and the possible use cases of our tool.
Abstract（参考訳）: ROOTS は BLOOM のトレーニングのために開発された 1.6TB の多言語テキストコーパスである。これらの取り組みの継続として, ファジィかつ正確な検索機能を備えたROTSコーパス全体を対象とした検索エンジンであるROTS Search Toolを提示する。 ROOTSは、これまでで最大のコーパスであり、この方法で調査することができる。 ROOTS Search Toolはオープンソースで、Hugging Face Spacesで利用できる。ツールの実装と可能なユースケースについて説明する。

関連論文リスト

ManuSearch: Democratizing Deep Search in Large Language Models with a Transparent and Open Multi-Agent Framework [73.91207117772291]
ManuSearchは,大規模言語モデル(LLM)の深層検索を民主化するために設計された,透明でモジュール化されたマルチエージェントフレームワークである。 ManuSearchは検索と推論のプロセスを,(1)サブクエリを反復的に定式化するソリューション計画エージェント,(2)リアルタイムWeb検索を通じて関連文書を検索するインターネット検索エージェント,(3)生のWebコンテンツから重要な証拠を抽出する構造化Webページ読取エージェントの3つに分解する。
論文参考訳（メタデータ） (2025-05-23T17:02:02Z)
CLIRudit: Cross-Lingual Information Retrieval of Scientific Documents [2.0277446818410994]
本稿では,言語間の学術的探索を評価するための新しいデータセットであるCLIRuditを提案する。データセットは、カナダのパブリッシングプラットフォームである'Erudit'のバイリンガルな記事メタデータを使って構築されている。
論文参考訳（メタデータ） (2025-04-22T20:55:08Z)
ClusterTalk: Corpus Exploration Framework using Multi-Dimensional Exploratory Search [3.4123736336071864]
ClusterTalkは多次元探索探索を用いたコーパス探索のためのフレームワークである。本システムでは,文書クラスタリングと顔検索を統合し,対話的に探索を洗練し,コーパスや文書レベルのクエリを問うことができる。
論文参考訳（メタデータ） (2024-12-19T05:11:16Z)
Automating Thought of Search: A Journey Towards Soundness and Completeness [20.944440404347908]
大型言語モデル (LLMs) の定番の1つとして計画が残っている。 ToS(Thought of Search)は、計画上の問題を解決するループから人間を完全に取り除きます。評価されたすべての領域の様々な大きさのLLMを用いて、最小限のフィードバックで100%の精度を達成する。
論文参考訳（メタデータ） (2024-08-21T04:19:52Z)
ILiAD: An Interactive Corpus for Linguistic Annotated Data from Twitter Posts [0.0]
英語のTwitter投稿から言語コーパスの開発と展開について述べる。主な目標は、言語分析のための完全な注釈付き英語コーパスを作ることであった。形態や構文に関する情報に加えて,トークン化やレムマ,n-gramなどのNLP機能も含んでいます。
論文参考訳（メタデータ） (2024-07-22T04:48:04Z)
LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文参考訳（メタデータ） (2024-06-03T15:30:36Z)
Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval [56.65147231836708]
SWIM-IRは, 微調整多言語高密度検索のための33言語を含む合成検索訓練データセットである。 SAPは、ターゲット言語における情報クエリの生成において、大きな言語モデル(LLM)を支援する。我々のモデルはSWIM-Xと呼ばれ、人間に指示された高密度検索モデルと競合する。
論文参考訳（メタデータ） (2023-11-10T00:17:10Z)
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文参考訳（メタデータ） (2023-07-31T15:56:53Z)
LLMDet: A Third Party Large Language Models Generated Text Detection Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文参考訳（メタデータ） (2023-05-24T10:45:16Z)
Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。 BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文参考訳（メタデータ） (2023-05-10T16:40:52Z)
WeTS: A Benchmark for Translation Suggestion [32.10692757420455]
我々はemphWeTSと呼ばれる翻訳提案(TS)のためのベンチマークデータセットを作成する。また,TSの性能を大幅に向上できる合成コーパスを生成するための新しい手法を提案する。我々のモデルは、ドイツ語、ドイツ語、中国語、英語、中国語の4つの翻訳方向について、ステートオフ・ザ・アート(SOTA)の結果を達成する。
論文参考訳（メタデータ） (2021-10-11T10:52:17Z)
NeurST: Neural Speech Translation Toolkit [13.68036533544182]
NeurSTは、ByteDance AI Labが開発したニューラルネットワーク翻訳のためのオープンソースのツールキットです。主にエンドツーエンドの音声翻訳に焦点を当てており、高度な音声翻訳の研究や製品に簡単に使用、修正、拡張できます。
論文参考訳（メタデータ） (2020-12-18T02:33:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。