論文の概要: LOME: Large Ontology Multilingual Extraction
- arxiv url: http://arxiv.org/abs/2101.12175v1
- Date: Thu, 28 Jan 2021 18:28:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-01-31 18:19:41.381275
- Title: LOME: Large Ontology Multilingual Extraction
- Title(参考訳): LOME: 大規模オントロジー多言語抽出
- Authors: Patrick Xia, Guanghui Qin, Siddharth Vashishtha, Yunmo Chen, Tongfei
Chen, Chandler May, Craig Harman, Kyle Rawlins, Aaron Steven White, Benjamin
Van Durme
- Abstract要約: LOMEは多言語情報抽出を行うシステムである。
入力としてテキストドキュメントが与えられると、コアシステムはテキストエンティティとイベント参照をFrameNetで識別する。
これにより、システムはイベントとエンティティに焦点を当てた知識グラフを構築する。
- 参考スコア(独自算出の注目度): 41.03628217448552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LOME, a system for performing multilingual information extraction.
Given a text document as input, our core system identifies spans of textual
entity and event mentions with a FrameNet (Baker et al., 1998) parser. It
subsequently performs coreference resolution, fine-grained entity typing, and
temporal relation prediction between events. By doing so, the system constructs
an event and entity focused knowledge graph. We can further apply third-party
modules for other types of annotation, like relation extraction. Our
(multilingual) first-party modules either outperform or are competitive with
the (monolingual) state-of-the-art. We achieve this through the use of
multilingual encoders like XLM-R (Conneau et al., 2020) and leveraging
multilingual training data. LOME is available as a Docker container on Docker
Hub. In addition, a lightweight version of the system is accessible as a web
demo.
- Abstract(参考訳): 本稿では,多言語情報抽出システムlomeを提案する。
入力としてテキスト文書が与えられると、コアシステムはテキストエンティティとイベント参照のスパンをフレームネット(baker et al., 1998)パーサで識別する。
その後、コア参照解決、きめ細かいエンティティタイピング、イベント間の時間的関係予測を行う。
これにより、システムはイベントとエンティティに焦点を当てた知識グラフを構築する。
さらに、関係抽出など、他のタイプのアノテーションにもサードパーティモジュールを適用できます。
当社の(多言語)ファーストパーティモジュールは、(多言語)最新技術に匹敵するか、競争力があります。
我々は、xlm-r (conneau et al., 2020) のような多言語エンコーダを用いてこれを実現し、多言語トレーニングデータを活用する。
LOMEはDocker Hub上のDockerコンテナとして利用できる。
さらに、システムの軽量バージョンは、Webデモとしてアクセスできます。
関連論文リスト
- Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Simplifying Multilingual News Clustering Through Projection From a
Shared Space [0.39560040546164016]
メディア監視のための多言語ニュース記事の整理とクラスタ化は,ニュース記事のリアルタイムな追跡に不可欠である。
このタスクのほとんどのアプローチは、高リソース言語(主に英語)に焦点を当てており、低リソース言語は無視されている。
言語固有の機能に依存することなく、よりシンプルな文書ストリームをクラスタリングできるオンラインシステムを提案する。
論文 参考訳(メタデータ) (2022-04-28T11:32:49Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - Graph Neural Network Enhanced Language Models for Efficient Multilingual
Text Classification [8.147244878591014]
本稿では,モノ,クロス,マルチ言語シナリオ下で動作可能な多言語災害関連テキスト分類システムを提案する。
我々のエンドツーエンドのトレーニング可能なフレームワークは、コーパスに代えてグラフニューラルネットワークの汎用性を組み合わせたものです。
我々は、モノ、クロス、マルチ言語分類シナリオにおいて、合計9つの英語、非英語、モノリンガルデータセットについて、我々のフレームワークを評価した。
論文 参考訳(メタデータ) (2022-03-06T09:05:42Z) - A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text
Classification [16.684856745734944]
ゼロショット言語間テキスト分類の性能を向上する多言語バッグ・オブ・エンティリティモデルを提案する。
同じ概念を表す複数の言語のエンティティは、ユニークな識別子で定義される。
したがって、リソース豊富な言語のエンティティ機能に基づいて訓練されたモデルは、他の言語に直接適用することができる。
論文 参考訳(メタデータ) (2021-10-15T01:10:50Z) - Transferring Knowledge Distillation for Multilingual Social Event
Detection [42.663309895263666]
最近発表されたグラフニューラルネットワーク(GNN)は、ソーシャルイベント検出タスクにおける有望なパフォーマンスを示している。
本稿では,多言語データストリーム中の事象を検出するために,言語間単語埋め込みを組み込んだGNNを提案する。
合成データセットと実世界のデータセットの両方の実験では、多言語データとトレーニングサンプルが不足している言語の両方において、検出に非常に効果的なフレームワークが示されている。
論文 参考訳(メタデータ) (2021-08-06T12:38:42Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Language Guided Networks for Cross-modal Moment Retrieval [66.49445903955777]
モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。
既存の手法は、ビデオや文の特徴を独立して抽出する。
本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
論文 参考訳(メタデータ) (2020-06-18T12:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。