論文の概要: DetIE: Multilingual Open Information Extraction Inspired by Object
Detection
- arxiv url: http://arxiv.org/abs/2206.12514v1
- Date: Fri, 24 Jun 2022 23:47:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:25:25.770861
- Title: DetIE: Multilingual Open Information Extraction Inspired by Object
Detection
- Title(参考訳): DetIE:オブジェクト検出にヒントを得た多言語オープン情報抽出
- Authors: Michael Vasilkovsky, Anton Alekseev, Valentin Malykh, Ilya Shenbin,
Elena Tutubalina, Dmitriy Salikhov, Mikhail Stepnov, Andrey Chertok, Sergey
Nikolenko
- Abstract要約: コンピュータビジョンからオブジェクト検出アルゴリズムにインスパイアされたOpenIEのための新しいシングルパス方式を提案する。
マルチリンガルなRe-OIE2016では、パフォーマンス改善が15%向上し、ポルトガル語とスペイン語の両方で75%のF1に達した。
- 参考スコア(独自算出の注目度): 10.269858179091111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State of the art neural methods for open information extraction (OpenIE)
usually extract triplets (or tuples) iteratively in an autoregressive or
predicate-based manner in order not to produce duplicates. In this work, we
propose a different approach to the problem that can be equally or more
successful. Namely, we present a novel single-pass method for OpenIE inspired
by object detection algorithms from computer vision. We use an order-agnostic
loss based on bipartite matching that forces unique predictions and a
Transformer-based encoder-only architecture for sequence labeling. The proposed
approach is faster and shows superior or similar performance in comparison with
state of the art models on standard benchmarks in terms of both quality metrics
and inference time. Our model sets the new state of the art performance of
67.7% F1 on CaRB evaluated as OIE2016 while being 3.35x faster at inference
than previous state of the art. We also evaluate the multilingual version of
our model in the zero-shot setting for two languages and introduce a strategy
for generating synthetic multilingual data to fine-tune the model for each
specific language. In this setting, we show performance improvement 15% on
multilingual Re-OIE2016, reaching 75% F1 for both Portuguese and Spanish
languages. Code and models are available at
https://github.com/sberbank-ai/DetIE.
- Abstract(参考訳): オープン情報抽出のためのアートニューラルメソッド(openie)は、通常、重複を発生させないために、自己回帰的または述語に基づく方法で反復的にトリプレット(またはタプル)を抽出する。
本研究では,問題に対して等しく,あるいはそれ以上の成功が可能な,異なるアプローチを提案する。
コンピュータビジョンからオブジェクト検出アルゴリズムにインスパイアされたOpenIEのための新しいシングルパス方式を提案する。
本稿では,2部マッチングに基づく順序非依存の損失を用いて,一意な予測を強制し,シーケンスラベリングのためのトランスフォーマーベースのエンコーダのみアーキテクチャを用いる。
提案手法は, 品質指標と推論時間の両方の観点から, 標準ベンチマークにおける技術モデルと比較し, 優れた性能あるいは類似性を示す。
OIE2016として評価されたCARBの67.7% F1の新たな性能を,従来よりも3.35倍高速に設定した。
また,このモデルの多言語版を2言語でゼロショット設定で評価し,各言語用のモデルを微調整する合成多言語データを生成する戦略を提案する。
この設定では、多言語Re-OIE2016のパフォーマンスが15%向上し、ポルトガル語とスペイン語の両方で75%F1に達した。
コードとモデルはhttps://github.com/sberbank-ai/detieで入手できる。
関連論文リスト
- Exploring Multiple Strategies to Improve Multilingual Coreference Resolution in CorefUD [0.0]
本稿では,エンド・ツー・エンドのニューラル・コアス・リゾリューションシステムについて述べる。
まず、モノリンガルとクロスリンガルのバリエーションを含む強力なベースラインモデルを構築します。
多様な言語文脈における性能向上のためのいくつかの拡張を提案する。
論文 参考訳(メタデータ) (2024-08-29T20:27:05Z) - Streaming Bilingual End-to-End ASR model using Attention over Multiple
Softmax [6.386371634323785]
本稿では,両言語を単一のニューラルモデルで認識可能な,バイリンガル・エンド・ツー・エンド(E2E)モデリング手法を提案する。
提案モデルでは,自己認識機構によって結合された言語固有のジョイントネットワークを用いて,エンコーダと予測ネットワークを共有する。
論文 参考訳(メタデータ) (2024-01-22T01:44:42Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Probing Structured Pruning on Multilingual Pre-trained Models: Settings,
Algorithms, and Efficiency [62.0887259003594]
本研究では,多言語事前学習言語モデルにおける構造化プルーニングの3つの側面について検討する。
9つの下流タスクの実験は、いくつかの反直観的な現象を示している。
モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチであるDynamic Sparsificationを紹介します。
論文 参考訳(メタデータ) (2022-04-06T06:29:52Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。