論文の概要: GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration
- arxiv url: http://arxiv.org/abs/2306.01481v1
- Date: Fri, 2 Jun 2023 12:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 15:16:47.712144
- Title: GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration
- Title(参考訳): GAIA Search: NLPトレーニングデータ探索のためのHugging FaceとPyserini相互運用性
- Authors: Aleksandra Piktus, Odunayo Ogundepo, Christopher Akiki, Akintunde
Oladipo, Xinyu Zhang, Hailey Schoelkopf, Stella Biderman, Martin Potthast,
Jimmy Lin
- Abstract要約: 我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
- 参考スコア(独自算出の注目度): 97.68234051078997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Noticing the urgent need to provide tools for fast and user-friendly
qualitative analysis of large-scale textual corpora of the modern NLP, we
propose to turn to the mature and well-tested methods from the domain of
Information Retrieval (IR) - a research field with a long history of tackling
TB-scale document collections. We discuss how Pyserini - a widely used toolkit
for reproducible IR research can be integrated with the Hugging Face ecosystem
of open-source AI libraries and artifacts. We leverage the existing
functionalities of both platforms while proposing novel features further
facilitating their integration. Our goal is to give NLP researchers tools that
will allow them to develop retrieval-based instrumentation for their data
analytics needs with ease and agility. We include a Jupyter Notebook-based walk
through the core interoperability features, available on GitHub at
https://github.com/huggingface/gaia. We then demonstrate how the ideas we
present can be operationalized to create a powerful tool for qualitative data
analysis in NLP. We present GAIA Search - a search engine built following
previously laid out principles, giving access to four popular large-scale text
collections. GAIA serves a dual purpose of illustrating the potential of
methodologies we discuss but also as a standalone qualitative analysis tool
that can be leveraged by NLP researchers aiming to understand datasets prior to
using them in training. GAIA is hosted live on Hugging Face Spaces -
https://huggingface.co/spaces/spacerini/gaia.
- Abstract(参考訳): 本稿では,最近のNLPの大規模テキストコーパスを高速かつユーザフレンドリに定性的に分析するためのツールを緊急に提供する必要があることに気付き,情報検索分野(IR)の成熟度の高い手法に転換することを提案する。
我々は、再現可能なIR研究のための広く使われているツールキットであるPyseriniを、オープンソースAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
両プラットフォームの既存の機能を活用しながら,その統合をさらに促進する新たな機能を提案しています。
我々のゴールは、NLP研究者がデータ分析のニーズに対して、簡単かつ機敏に検索ベースのインスツルメンテーションを開発できるようにすることです。
jupyter notebookベースのインターオペラビリティ機能は、githubのhttps://github.com/huggingface/gaiaで利用可能です。
次に、我々が提示するアイデアがどのように運用され、nlpの質的データ分析のための強力なツールとなるかを示す。
GAIA Search - 前述した原則に従って構築された検索エンジンで、4つの人気のある大規模テキストコレクションにアクセスする。
gaiaは、私たちが議論する方法論の可能性を図示すると同時に、トレーニングで使用する前にデータセットを理解することを目的としたnlp研究者が活用できるスタンドアロンの定性分析ツールとしても役立ちます。
GAIAはHugging Face Spaceshttps://huggingface.co/spaces/spacerini/gaia.comでホストされている。
関連論文リスト
- Capturing research literature attitude towards Sustainable Development Goals: an LLM-based topic modeling approach [0.7806050661713976]
持続可能な開発目標は2015年に国連によって策定され、2030年までにこれらの世界的な課題に対処した。
自然言語処理技術は、研究文献の中のSDGに関する議論を明らかにするのに役立つ。
我々は,Scopusデータベースからコンテンツを取り出し,SDGの5つのグループ専用のデータセットを作成する,完全に自動化されたパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:37:23Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - MEGAnno: Exploratory Labeling for NLP in Computational Notebooks [9.462926987075122]
本稿では,NLP実践者と研究者を対象とした新しいアノテーションフレームワークMEGAnnoを紹介する。
MEGAnnoを使えば、ユーザーは高度な検索機能と対話型提案機能を通じてデータを探索できる。
我々は,MEGAnnoのフレキシブル,探索的,効率的,シームレスなラベル付け体験を感情分析のユースケースを通じて実証する。
論文 参考訳(メタデータ) (2023-01-08T19:16:22Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - Sionna: An Open-Source Library for Next-Generation Physical Layer
Research [64.77840557164266]
Sionnaは、レイカーネルに基づいたリンクレベルシミュレーションのためのGPUアクセラレーションされたオープンソースライブラリである。
Sionnaは、ベンチマークやエンドツーエンドのパフォーマンス評価に使用できる、注意深くテストされた最先端のアルゴリズムを幅広く実装している。
論文 参考訳(メタデータ) (2022-03-22T16:31:44Z) - DeepShovel: An Online Collaborative Platform for Data Extraction in
Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。
DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。
14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文 参考訳(メタデータ) (2022-02-21T12:18:08Z) - A Flexible Clustering Pipeline for Mining Text Intentions [6.599344783327053]
Verint Intent Manager内にフレキシブルでスケーラブルなクラスタリングパイプラインを作成します。
言語モデルの微調整、高性能なk-NNライブラリ、コミュニティ検出技術を統合する。
VIMアプリケーションにデプロイされるように、このクラスタリングパイプラインは高品質な結果を生成する。
論文 参考訳(メタデータ) (2022-02-01T22:54:18Z) - DRIFT: A Toolkit for Diachronic Analysis of Scientific Literature [0.7349727826230862]
DRIFTをオープンソースとして公開し、研究者が長年の研究動向と開発を追跡できるようにしました。
分析手法は、よく暗唱された研究成果と照合され、我々のいくつかの方法が良い測定のために追加されている。
本ツールの有用性と有効性を示すため,arXivリポジトリのcs.CLコーパスのケーススタディを行い,解析手法から推論を行う。
論文 参考訳(メタデータ) (2021-07-02T17:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。