論文の概要: PyRelationAL: A Library for Active Learning Research and Development
- arxiv url: http://arxiv.org/abs/2205.11117v1
- Date: Mon, 23 May 2022 08:21:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 16:05:50.032550
- Title: PyRelationAL: A Library for Active Learning Research and Development
- Title(参考訳): PyRelationAL: アクティブラーニング研究・開発のためのライブラリ
- Authors: Paul Scherer and Thomas Gaudelet and Alison Pouplin and Suraj M S and
Jyothish Soman and Lindsay Edwards and Jake P. Taylor-King
- Abstract要約: PyRelationALは、アクティブラーニング(AL)研究のためのオープンソースライブラリである。
既存の文献に基づいたベンチマークデータセットとALタスク設定へのアクセスを提供する。
我々は、ベンチマークデータセットのPyRelationALコレクションの実験を行い、ALが提供できる相当な経済状況を示す。
- 参考スコア(独自算出の注目度): 0.11545092788508224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In constrained real-world scenarios where it is challenging or costly to
generate data, disciplined methods for acquiring informative new data points
are of fundamental importance for the efficient training of machine learning
(ML) models. Active learning (AL) is a subfield of ML focused on the
development of methods to iteratively and economically acquire data through
strategically querying new data points that are the most useful for a
particular task. Here, we introduce PyRelationAL, an open source library for AL
research. We describe a modular toolkit that is compatible with diverse ML
frameworks (e.g. PyTorch, Scikit-Learn, TensorFlow, JAX). Furthermore, to help
accelerate research and development in the field, the library implements a
number of published methods and provides API access to wide-ranging benchmark
datasets and AL task configurations based on existing literature. The library
is supplemented by an expansive set of tutorials, demos, and documentation to
help users get started. We perform experiments on the PyRelationAL collection
of benchmark datasets and showcase the considerable economies that AL can
provide. PyRelationAL is maintained using modern software engineering practices
- with an inclusive contributor code of conduct - to promote long term library
quality and utilisation.
- Abstract(参考訳): データ生成が困難あるいはコストがかかる制約付き実世界のシナリオでは、情報的な新しいデータポイントを取得するための規律付き手法が、機械学習(ML)モデルの効率的なトレーニングに不可欠である。
アクティブラーニング(英: Active Learning, AL)は、特定のタスクに最も有用な新しいデータポイントを戦略的にクエリすることで、反復的かつ経済的にデータを取得する手法の開発に焦点を当てたMLのサブフィールドである。
ここでは,al研究のためのオープンソースライブラリであるpyrelationalを紹介する。
さまざまなMLフレームワーク(PyTorch、Scikit-Learn、TensorFlow、JAXなど)と互換性のあるモジュラーツールキットについて説明する。
さらに、この分野の研究と開発を加速するために、ライブラリは多数の公開メソッドを実装し、既存の文献に基づいた幅広いベンチマークデータセットとalタスク構成へのapiアクセスを提供する。
ライブラリにはチュートリアルやデモ,ドキュメントなど,ユーザが始めるための拡張的なセットが付属している。
ベンチマークデータセットのピリレーショナルコレクションに関する実験を行い、alが提供できるかなりの経済性を示す。
PyRelationALは、長期のライブラリの品質と利用を促進するために、最新のソフトウェアエンジニアリングプラクティス(包括的コントリビュータによる行動規範)を使用してメンテナンスされている。
関連論文リスト
- API-BLEND: A Comprehensive Corpora for Training and Benchmarking API
LLMs [29.79981259806772]
既存のデータセットを特定し、キュレーションし、変換するタスクに重点を置いています。
ツール拡張LDMのトレーニングと体系的なテストを行うための大規模なコーパスであるAPI-BLENDを紹介する。
トレーニングとベンチマークの両方の目的で,API-BLENDデータセットの有用性を実証する。
論文 参考訳(メタデータ) (2024-02-23T18:30:49Z) - DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM
Workflows [81.38065762300718]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Julearn: an easy-to-use library for leakage-free evaluation and
inspection of ML models [0.23301643766310373]
我々は、Julearnの設計の背景にある理論的根拠と、その中核となる特徴を提示し、以前に公表された研究プロジェクトの3つの例を示す。
Julearnは、最も一般的なMLの落とし穴に対して、ガードを組み込んだ使いやすい環境を提供することで、機械学習の世界への参入を単純化することを目指している。
論文 参考訳(メタデータ) (2023-10-19T08:21:12Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - SequeL: A Continual Learning Library in PyTorch and JAX [50.33956216274694]
SequeLは継続学習のためのライブラリで、PyTorchとJAXフレームワークの両方をサポートする。
それは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。
私たちはSequeLをオープンソースライブラリとしてリリースし、研究者や開発者が自身の目的で簡単にライブラリを実験し拡張することができます。
論文 参考訳(メタデータ) (2023-04-21T10:00:22Z) - Datasets: A Community Library for Natural Language Processing [55.48866401721244]
データセットは、現代のNLPのためのコミュニティライブラリである。
このライブラリには650以上のユニークなデータセットが含まれており、250以上のコントリビュータを抱えており、さまざまな新しいクロスデータセット研究プロジェクトを支援している。
論文 参考訳(メタデータ) (2021-09-07T03:59:22Z) - pyBKT: An Accessible Python Library of Bayesian Knowledge Tracing Models [0.0]
本稿では,知識追跡のためのモデル拡張ライブラリpyBKTを紹介する。
このライブラリはデータ生成、フィッティング、予測、クロスバリデーションルーチンを提供する。
pybktはオープンソースであり、研究や実践のコミュニティに知識の追跡をよりアクセスしやすくするためのオープンライセンスである。
論文 参考訳(メタデータ) (2021-05-02T03:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。