論文の概要: Mirror: A Universal Framework for Various Information Extraction Tasks
- arxiv url: http://arxiv.org/abs/2311.05419v2
- Date: Sun, 26 Nov 2023 17:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 13:05:05.546597
- Title: Mirror: A Universal Framework for Various Information Extraction Tasks
- Title(参考訳): Mirror: さまざまな情報抽出タスクのためのユニバーサルフレームワーク
- Authors: Tong Zhu, Junfei Ren, Zijian Yu, Mengsong Wu, Guoliang Zhang, Xiaoye
Qu, Wenliang Chen, Zhefeng Wang, Baoxing Huai, Min Zhang
- Abstract要約: 我々は、様々なIEタスク、すなわちMirrorのための普遍的なフレームワークを提案する。
我々は,既存のIEタスクをマルチスパン巡回グラフ抽出問題として再評価し,非自己回帰グラフ復号アルゴリズムを考案した。
我々のモデルは、SOTAシステムとの互換性や性能に優れ、競争性能に優れています。
- 参考スコア(独自算出の注目度): 28.43708291298155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sharing knowledge between information extraction tasks has always been a
challenge due to the diverse data formats and task variations. Meanwhile, this
divergence leads to information waste and increases difficulties in building
complex applications in real scenarios. Recent studies often formulate IE tasks
as a triplet extraction problem. However, such a paradigm does not support
multi-span and n-ary extraction, leading to weak versatility. To this end, we
reorganize IE problems into unified multi-slot tuples and propose a universal
framework for various IE tasks, namely Mirror. Specifically, we recast existing
IE tasks as a multi-span cyclic graph extraction problem and devise a
non-autoregressive graph decoding algorithm to extract all spans in a single
step. It is worth noting that this graph structure is incredibly versatile, and
it supports not only complex IE tasks, but also machine reading comprehension
and classification tasks. We manually construct a corpus containing 57 datasets
for model pretraining, and conduct experiments on 30 datasets across 8
downstream tasks. The experimental results demonstrate that our model has
decent compatibility and outperforms or reaches competitive performance with
SOTA systems under few-shot and zero-shot settings. The code, model weights,
and pretraining corpus are available at https://github.com/Spico197/Mirror .
- Abstract(参考訳): 情報抽出タスク間の知識の共有は、さまざまなデータフォーマットとタスクのバリエーションのため、常に課題となっている。
一方、この分散は情報の無駄を招き、実際のシナリオにおける複雑なアプリケーション構築の困難を増す。
最近の研究は、しばしば三重項抽出問題としてIEタスクを定式化している。
しかし、そのようなパラダイムはマルチスパンとn-ary抽出をサポートしておらず、弱い汎用性をもたらす。
この目的のために、我々はIE問題を統一されたマルチスロットタプルに再編成し、様々なIEタスク、すなわちMirrorのための普遍的なフレームワークを提案する。
具体的には、既存のieタスクをマルチスパン循環グラフ抽出問題として再キャストし、非自己回帰グラフ復号アルゴリズムを考案し、すべてのスパンを1ステップで抽出する。
このグラフ構造は驚くほど汎用性があり、複雑なIEタスクだけでなく、機械読み取りの理解や分類タスクもサポートしています。
モデル事前学習のための57のデータセットを含むコーパスを手動で構築し、8つの下流タスクにわたる30のデータセットで実験を行う。
実験結果から,本モデルは良好な互換性を示し,ショット数やゼロショット数でSOTAシステムと競合する性能を示した。
コード、モデルの重み付け、事前トレーニングコーパスはhttps://github.com/Spico197/Mirror.orgで入手できる。
関連論文リスト
- PyTorch-IE: Fast and Reproducible Prototyping for Information Extraction [6.308539010172309]
PyTorch-IEは、情報抽出モデルの迅速かつ再現可能で再利用可能な実装を可能にするために設計されたフレームワークである。
データ表現とモデル固有表現の関心事を分離するタスクモジュールを提案する。
PyTorch-IEは、トレーニングにPyTorch-Lightning、データセット読み込みにHuggingFaceデータセット、実験設定にHydraなど、広く使用されているライブラリのサポートも拡張している。
論文 参考訳(メタデータ) (2024-05-16T12:23:37Z) - A Regularization-based Transfer Learning Method for Information
Extraction via Instructed Graph Decoder [29.242560023747252]
グラフデコーダを用いたIE(TIE)の正規化に基づく転送学習手法を提案する。
具体的には、まず、よく知られたすべてのIEタスクからデータセットの命令プールを構築し、次に指示されたグラフデコーダを提示する。
このようにして、既存のデータセットと共有される共通知識を学び、新しいラベルを持つ新しいデータセットに転送することができる。
論文 参考訳(メタデータ) (2024-03-01T13:04:12Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - FSUIE: A Novel Fuzzy Span Mechanism for Universal Information Extraction [109.52244418498974]
ユニバーサル情報抽出(UIE)は、様々な情報抽出(IE)タスクの統一フレームワークとして導入された。
本稿ではファジィスパンユニバーサル情報抽出(FSUIE)フレームワークを提案する。
具体的には、ファジィ・スパン・ロス(fuzzy span loss)とファジィ・スパン・アテンション(fuzzy span attention)という2つの概念で構成されています。
論文 参考訳(メタデータ) (2023-06-19T15:59:28Z) - Universal Information Extraction with Meta-Pretrained Self-Retrieval [39.69130086395689]
ユニバーサル情報抽出(Universal IE)は、テキストから構造までの一様生成方法で異なる抽出タスクを解くことを目的としている。
外部知識ベースから知識を取得することは、モデルがこの問題を克服するのに役立つかもしれないが、様々なIEタスクに適した知識ベースを構築することは不可能である。
本稿では,PLMからタスク固有の知識を抽出し,汎用IEを強化するメタレトリバーを提案する。
論文 参考訳(メタデータ) (2023-06-18T00:16:00Z) - CodeIE: Large Code Generation Models are Better Few-Shot Information
Extractors [92.17328076003628]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、多くのNLPタスクにおいて、驚くべき数ショットの学習能力を示している。
本稿では、自然言語の代わりに構造化された出力をコード形式で再キャストすることを提案する。
論文 参考訳(メタデータ) (2023-05-09T18:40:31Z) - ChatIE: Zero-Shot Information Extraction via Chatting with ChatGPT [89.49161588240061]
ゼロショット情報抽出(IE)は、注釈のないテキストからIEシステムを構築することを目的としている。
大規模言語モデル(LLMs、GPT-3、ChatGPT)に対する最近の取り組みは、ゼロショット設定での有望なパフォーマンスを示している。
ゼロショットIEタスクを2段階フレームワーク(ChatIE)でマルチターン質問応答問題に変換する。
論文 参考訳(メタデータ) (2023-02-20T12:57:12Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。