論文の概要: GrASP: A Library for Extracting and Exploring Human-Interpretable
Textual Patterns
- arxiv url: http://arxiv.org/abs/2104.03958v1
- Date: Thu, 8 Apr 2021 17:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:21:59.848769
- Title: GrASP: A Library for Extracting and Exploring Human-Interpretable
Textual Patterns
- Title(参考訳): grab: 解釈可能なテキストパターンの抽出と探索のためのライブラリ
- Authors: Piyawat Lertvittayakumjorn, Leshem Choshen, Eyal Shnarch, Francesca
Toni
- Abstract要約: テキストデータからパターンを描画するアルゴリズムであるGrASP用のPythonライブラリを提供します。
このライブラリはwebベースのインタフェースを備えており、ユーザーがデータや抽出されたパターンを便利に探索できる。
- 参考スコア(独自算出の注目度): 25.350957495556226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data exploration is an important step of every data science and machine
learning project, including those involving textual data. We provide a Python
library for GrASP, an existing algorithm for drawing patterns from textual
data. The library is equipped with a web-based interface empowering human users
to conveniently explore the data and the extracted patterns. We also
demonstrate the use of the library in two settings (spam detection and argument
mining) and discuss future deployments of the library, e.g., beyond textual
data exploration.
- Abstract(参考訳): データ探索は、テキストデータを含むすべてのデータサイエンスおよび機械学習プロジェクトの重要なステップである。
テキストデータからパターンを描画する既存のアルゴリズムであるGrASP用のPythonライブラリを提供する。
このライブラリは、ユーザがデータや抽出されたパターンを便利に探索できるWebベースのインターフェースを備えている。
また,このライブラリを2つの設定(spam検出と引数マイニング)で使用することを示し,テキストデータ探索以外のライブラリの今後の展開について論じる。
関連論文リスト
- News Signals: An NLP Library for Text and Time Series [3.850666668546735]
News Signalsは、入力がテキストデータのクラスタであるデータセットの構築と使用のためのオープンソースのライブラリである。
時系列の振る舞いの予測に関連する多様なデータサイエンスとNLP問題設定をサポートする。
論文 参考訳(メタデータ) (2023-12-18T18:02:41Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Reception Reader: Exploring Text Reuse in Early Modern British
Publications [0.0]
Reception Readerは、Early English Books Online (EEBO-TCP) と Eighteenth Century Collections Online (ECCO) のデータでテキストの再利用を研究するためのウェブツールである。
ツールが調査や探索の作業をどのように効率化するかの例を示し、現在のデータソースとともにユーザインタフェースの有用性と限界について議論する。
論文 参考訳(メタデータ) (2023-02-08T14:37:35Z) - TextBox 2.0: A Text Generation Library with Pre-trained Language Models [72.49946755856935]
本稿では,事前学習言語モデル(PLM)の利用に着目し,包括的で統一されたライブラリであるTextBox 2.0を提案する。
包括的に言えば、私たちのライブラリは、13ドルの共通テキスト生成タスクと、それに対応する8,3ドルのデータセットをカバーしています。
また、効率的なトレーニング戦略を4ドルで実装し、スクラッチから新しいPLMを事前トレーニングするための4ドル世代目標を提供します。
論文 参考訳(メタデータ) (2022-12-26T03:50:36Z) - DeepShovel: An Online Collaborative Platform for Data Extraction in
Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。
DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。
14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文 参考訳(メタデータ) (2022-02-21T12:18:08Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z) - pyBKT: An Accessible Python Library of Bayesian Knowledge Tracing Models [0.0]
本稿では,知識追跡のためのモデル拡張ライブラリpyBKTを紹介する。
このライブラリはデータ生成、フィッティング、予測、クロスバリデーションルーチンを提供する。
pybktはオープンソースであり、研究や実践のコミュニティに知識の追跡をよりアクセスしやすくするためのオープンライセンスである。
論文 参考訳(メタデータ) (2021-05-02T03:08:53Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - giotto-tda: A Topological Data Analysis Toolkit for Machine Learning and
Data Exploration [4.8353738137338755]
giotto-tdaは、高性能なトポロジカルデータ分析と機械学習を統合するPythonライブラリである。
このライブラリの様々な種類のデータを扱う能力は、幅広い事前処理技術に根ざしている。
論文 参考訳(メタデータ) (2020-04-06T10:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。