論文の概要: FAMIE: A Fast Active Learning Framework for Multilingual Information
Extraction
- arxiv url: http://arxiv.org/abs/2202.08316v1
- Date: Wed, 16 Feb 2022 20:11:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-19 06:35:44.990346
- Title: FAMIE: A Fast Active Learning Framework for Multilingual Information
Extraction
- Title(参考訳): famie:多言語情報抽出のための高速アクティブ学習フレームワーク
- Authors: Minh Van Nguyen, Nghia Trung Ngo, Bonan Min, Thien Huu Nguyen
- Abstract要約: FAMIEは多言語情報抽出のための総合的で効率的な能動学習ツールキットである。
高速なデータ選択に小さなプロキシネットワークを使用するというアイデアに基づいて,新しい知識蒸留機構を導入する。
ALを用いたシーケンスラベリングにおいて、競合性能と時間効率の観点からFAMIEの利点を実証した。
- 参考スコア(独自算出の注目度): 40.28976617483996
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents FAMIE, a comprehensive and efficient active learning (AL)
toolkit for multilingual information extraction. FAMIE is designed to address a
fundamental problem in existing AL frameworks where annotators need to wait for
a long time between annotation batches due to the time-consuming nature of
model training and data selection at each AL iteration. This hinders the
engagement, productivity, and efficiency of annotators. Based on the idea of
using a small proxy network for fast data selection, we introduce a novel
knowledge distillation mechanism to synchronize the proxy network with the main
large model (i.e., BERT-based) to ensure the appropriateness of the selected
annotation examples for the main model. Our AL framework can support multiple
languages. The experiments demonstrate the advantages of FAMIE in terms of
competitive performance and time efficiency for sequence labeling with AL. We
publicly release our code (\url{https://github.com/nlp-uoregon/famie}) and demo
website (\url{http://nlp.uoregon.edu:9000/}). A demo video for FAMIE is
provided at: \url{https://youtu.be/I2i8n_jAyrY}.
- Abstract(参考訳): 本稿では,多言語情報抽出のための総合的かつ効率的な能動学習(AL)ツールキットFAMIEを提案する。
FAMIEは既存のALフレームワークの基本的な問題に対処するために設計されており、アノテーションは、モデルトレーニングの時間を要する性質と、各ALイテレーションにおけるデータ選択のために、アノテーションバッチの間を長く待たなければならない。
これはアノテーションのエンゲージメント、生産性、効率を妨げる。
高速データ選択に小型のプロキシネットワークを使用するという考え方に基づいて,主モデルに対して選択されたアノテーション例の適切性を保証するために,プロキシネットワークと主大型モデル(bertベース)を同期させる新たな知識蒸留機構を導入する。
私たちのALフレームワークは複数の言語をサポートできます。
ALを用いたシーケンスラベリングにおける競合性能と時間効率の観点からFAMIEの利点を実証した。
コード(\url{https://github.com/nlp-uoregon/famie})とデモウェブサイト(\url{http://nlp.uoregon.edu:9000/})を公開しています。
FAMIEのデモビデオは: \url{https://youtu.be/I2i8n_jAyrY} で提供されている。
関連論文リスト
- Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - MoBYv2AL: Self-supervised Active Learning for Image Classification [57.4372176671293]
画像分類のための自己教師型アクティブラーニングフレームワークであるMoBYv2ALを提案する。
私たちの貢献は、最も成功した自己教師付き学習アルゴリズムであるMoBYをALパイプラインに持ち上げることです。
近年のAL法と比較すると,最先端の結果が得られている。
論文 参考訳(メタデータ) (2023-01-04T10:52:02Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Deep Indexed Active Learning for Matching Heterogeneous Entity
Representations [20.15233789156307]
本稿では,ブロッキングのリコールとブロックペアのマッチング精度を最大化するために,組込みを共同で学習するスケーラブルなアクティブラーニング手法であるdiardを提案する。
5つのベンチマークデータセットと多言語レコードマッチングデータセットの実験は、精度、リコール、実行時間の観点から、我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2021-04-08T18:00:19Z) - Self-Training Pre-Trained Language Models for Zero- and Few-Shot
Multi-Dialectal Arabic Sequence Labeling [7.310390479801139]
データスカース変種の性能を改善するため、ゼロおよび少数ショットシナリオで事前訓練された言語モデル。
我々の研究は、MSAリソースのみを活用するDAモデルを開発する機会を開く。
論文 参考訳(メタデータ) (2021-01-12T21:29:30Z) - Cross-lingual Information Retrieval with BERT [8.052497255948046]
本稿では、人気のある双方向言語モデルBERTを用いて、英語クエリと外国語文書の関係をモデル化し、学習する。
BERTに基づく深部関係マッチングモデルを導入し,教師の弱い事前学習多言語BERTモデルを微調整して訓練する。
短い英語クエリに対するリトアニア語文書の検索実験の結果、我々のモデルは有効であり、競争ベースラインのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-24T23:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。