論文の概要: PyTorch-IE: Fast and Reproducible Prototyping for Information Extraction
- arxiv url: http://arxiv.org/abs/2406.00007v1
- Date: Thu, 16 May 2024 12:23:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-09 16:19:21.714924
- Title: PyTorch-IE: Fast and Reproducible Prototyping for Information Extraction
- Title(参考訳): PyTorch-IE:情報抽出のための高速かつ再現可能なプロトタイピング
- Authors: Arne Binder, Leonhard Hennig, Christoph Alt,
- Abstract要約: PyTorch-IEは、情報抽出モデルの迅速かつ再現可能で再利用可能な実装を可能にするために設計されたフレームワークである。
データ表現とモデル固有表現の関心事を分離するタスクモジュールを提案する。
PyTorch-IEは、トレーニングにPyTorch-Lightning、データセット読み込みにHuggingFaceデータセット、実験設定にHydraなど、広く使用されているライブラリのサポートも拡張している。
- 参考スコア(独自算出の注目度): 6.308539010172309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The objective of Information Extraction (IE) is to derive structured representations from unstructured or semi-structured documents. However, developing IE models is complex due to the need of integrating several subtasks. Additionally, representation of data among varied tasks and transforming datasets into task-specific model inputs presents further challenges. To streamline this undertaking for researchers, we introduce PyTorch-IE, a deep-learning-based framework uniquely designed to enable swift, reproducible, and reusable implementations of IE models. PyTorch-IE offers a flexible data model capable of creating complex data structures by integrating interdependent layers of annotations derived from various data types, like plain text or semi-structured text, and even images. We propose task modules to decouple the concerns of data representation and model-specific representations, thereby fostering greater flexibility and reusability of code. PyTorch-IE also extends support for widely used libraries such as PyTorch-Lightning for training, HuggingFace datasets for dataset reading, and Hydra for experiment configuration. Supplementary libraries and GitHub templates for the easy setup of new projects are also provided. By ensuring functionality and versatility, PyTorch-IE provides vital support to the research community engaged in Information Extraction.
- Abstract(参考訳): 情報抽出(IE)の目的は、構造化されていない文書や半構造化文書から構造化された表現を導出することである。
しかし、いくつかのサブタスクを統合する必要があるため、IEモデルの開発は複雑である。
さらに、さまざまなタスク間でのデータ表現とデータセットをタスク固有のモデル入力に変換することで、さらなる課題が提示される。
PyTorch-IE(PyTorch-IE)は,IEモデルの迅速,再現性,再利用可能な実装を可能にする,一意に設計されたディープラーニングベースのフレームワークである。
PyTorch-IEは、プレーンテキストや半構造化テキスト、さらにはイメージなど、さまざまなデータタイプから派生したアノテーションの相互依存層を統合することで、複雑なデータ構造を作成することのできる柔軟なデータモデルを提供する。
本稿では,データ表現とモデル固有表現の懸念を分離し,コードの柔軟性と再利用性を向上するタスクモジュールを提案する。
PyTorch-IEは、トレーニングにPyTorch-Lightning、データセット読み込みにHuggingFaceデータセット、実験設定にHydraなど、広く使用されているライブラリのサポートも拡張している。
新しいプロジェクトのセットアップを簡単にするための追加ライブラリやGitHubテンプレートも提供されている。
機能と汎用性を確保することで、PyTorch-IEは情報抽出に携わる研究コミュニティに重要な支援を提供する。
関連論文リスト
- A Survey on Deep Tabular Learning [0.0]
タブラルデータは、その不均一な性質と空間構造が欠如していることから、深層学習の独特な課題を提示する。
本調査では,早期完全接続ネットワーク(FCN)から,TabNet,SAINT,TabTranSELU,MambaNetといった先進アーキテクチャに至るまで,タブラルデータのディープラーニングモデルの進化を概観する。
論文 参考訳(メタデータ) (2024-10-15T20:08:08Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - PyTorch Frame: A Modular Framework for Multi-Modal Tabular Learning [54.912520425218496]
PyTorch Frame は PyTorch をベースとした多モード表データの深層学習フレームワークである。
モジュラー方式で多種多様なモデルを実装することにより,PyTorch Frameの有用性を示す。
我々は、グラフニューラルネットワーク(GNN)のためのPyTorchライブラリであるPyTorch GeometricとPyTorch Frameを統合し、関係データベース上でエンドツーエンドの学習を行う。
論文 参考訳(メタデータ) (2024-03-31T19:15:09Z) - Mirror: A Universal Framework for Various Information Extraction Tasks [28.43708291298155]
我々は、様々なIEタスク、すなわちMirrorのための普遍的なフレームワークを提案する。
我々は,既存のIEタスクをマルチスパン巡回グラフ抽出問題として再評価し,非自己回帰グラフ復号アルゴリズムを考案した。
我々のモデルは、SOTAシステムとの互換性や性能に優れ、競争性能に優れています。
論文 参考訳(メタデータ) (2023-11-09T14:58:46Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Easy-to-Hard Learning for Information Extraction [57.827955646831526]
情報抽出システムは、構造化されていないテキストから構造化された情報を自動的に抽出することを目的としている。
本稿では,3段階,すなわち易解な段階,難解な段階,主段階の3段階からなる統合型易解学習フレームワークを提案する。
学習プロセスを複数の段階に分割することで,一般のIEタスク知識の獲得と一般化能力の向上が促進される。
論文 参考訳(メタデータ) (2023-05-16T06:04:14Z) - Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。
データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-03T13:49:36Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。