論文の概要: ACE-2005-PT: Corpus for Event Extraction in Portuguese
- arxiv url: http://arxiv.org/abs/2408.16928v1
- Date: Thu, 29 Aug 2024 22:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 16:58:54.751840
- Title: ACE-2005-PT: Corpus for Event Extraction in Portuguese
- Title(参考訳): ACE-2005-PT:ポルトガル語におけるイベント抽出コーパス
- Authors: Luís Filipe Cunha, Purificação Silvano, Ricardo Campos, Alípio Jorge,
- Abstract要約: ACE-2005はこの分野で標準コーパスとして広く認識されている。
本稿では,ACE-2005をポルトガル語に翻訳したコーパスであるACE-2005-PTを紹介する。
- 参考スコア(独自算出の注目度): 2.0011758928223826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event extraction is an NLP task that commonly involves identifying the central word (trigger) for an event and its associated arguments in text. ACE-2005 is widely recognised as the standard corpus in this field. While other corpora, like PropBank, primarily focus on annotating predicate-argument structure, ACE-2005 provides comprehensive information about the overall event structure and semantics. However, its limited language coverage restricts its usability. This paper introduces ACE-2005-PT, a corpus created by translating ACE-2005 into Portuguese, with European and Brazilian variants. To speed up the process of obtaining ACE-2005-PT, we rely on automatic translators. This, however, poses some challenges related to automatically identifying the correct alignments between multi-word annotations in the original text and in the corresponding translated sentence. To achieve this, we developed an alignment pipeline that incorporates several alignment techniques: lemmatization, fuzzy matching, synonym matching, multiple translations and a BERT-based word aligner. To measure the alignment effectiveness, a subset of annotations from the ACE-2005-PT corpus was manually aligned by a linguist expert. This subset was then compared against our pipeline results which achieved exact and relaxed match scores of 70.55\% and 87.55\% respectively. As a result, we successfully generated a Portuguese version of the ACE-2005 corpus, which has been accepted for publication by LDC.
- Abstract(参考訳): イベント抽出はNLPタスクであり、一般的には、イベントの中央単語(トリガー)とその関連する引数をテキストで識別する。
ACE-2005はこの分野で標準コーパスとして広く認識されている。
PropBankのような他のコーポラは、主に述語構文の注釈付けに重点を置いているが、ACE-2005はイベント構造とセマンティクス全体に関する包括的な情報を提供している。
しかし、言語の範囲が限られているため、ユーザビリティが制限される。
本稿では,ACE-2005をポルトガル語に翻訳したコーパスであるACE-2005-PTについて紹介する。
ACE-2005-PTの取得過程を高速化するため,自動翻訳装置に頼っている。
しかし、これは原文および対応する翻訳文における多語アノテーション間の正しいアライメントを自動的に識別することに関連するいくつかの課題を提起する。
そこで我々は, 補間, ファジィマッチング, 同義語マッチング, 複数翻訳, BERTベースの単語整合器など, 複数のアライメント手法を組み込んだアライメントパイプラインを開発した。
アライメントの有効性を測定するため、ACE-2005-PTコーパスからのアノテーションのサブセットを言語学者によって手動で調整した。
このサブセットをパイプラインの結果と比較し、それぞれ70.55\%と87.55\%の正確なスコアと緩和されたマッチスコアを得た。
その結果, ACE-2005コーパスのポルトガル語版の作成に成功した。
関連論文リスト
- Mitigating Semantic Leakage in Cross-lingual Embeddings via Orthogonality Constraint [6.880579537300643]
現在の不整合表現学習法はセマンティックリークに悩まされている。
我々は,新しい学習目標orthogonAlity Constraint LEarning(ORACLE)を提案する。
ORACLEはクラス内のクラスタリングとクラス間の分離という2つのコンポーネントの上に構築されている。
ORACLE目標を用いたトレーニングは,意味的漏洩を効果的に低減し,埋め込み空間内の意味的アライメントを高めることを実証する。
論文 参考訳(メタデータ) (2024-09-24T02:01:52Z) - Bilingual Rhetorical Structure Parsing with Large Parallel Annotations [5.439020425819001]
我々は,大規模で多様な英語GUM RSTコーパスに対して,パラレルなロシア語アノテーションを導入する。
我々のエンドツーエンドRTTは、英語とロシア語のコーパスで最先端の結果を得る。
我々の知る限り、この研究は、手動で注釈付けされた並列コーパス上での言語間エンドツーエンドのRTT解析の可能性を評価する最初のものである。
論文 参考訳(メタデータ) (2024-09-23T12:40:33Z) - Event Extraction for Portuguese: A QA-driven Approach using ACE-2005 [2.1861408994125253]
本稿では,ポルトガルの文書中の事象を識別・分類するために,分離されたBERTベースの2つのモデルを微調整した枠組みを提案する。
ポルトガル語におけるイベントアノテートコーパスの欠如を踏まえ,ACE-2005データセットの原版をポルトガル語に翻訳し,ポルトガル語イベント抽出のための新しいコーパスを作成した。
提案手法では,64.4のF1マークをトリガー分類用,46.7の引数分類用とすることで,ポルトガル語におけるこれらのタスクに対する新たな最先端参照を実現する。
論文 参考訳(メタデータ) (2024-08-29T22:14:21Z) - Soft Alignment of Modality Space for End-to-end Speech Translation [49.29045524083467]
エンドツーエンドの音声翻訳は、音声を統一されたモデル内でターゲットテキストに変換することを目的としている。
音声とテキストのモダリティの固有の違いは、しばしば効果的なクロスモーダルとクロスリンガルの移動を妨げる。
両モードの表現空間を整列させるために, 対角訓練を用いたソフトアライメント(S-Align)を導入する。
論文 参考訳(メタデータ) (2023-12-18T06:08:51Z) - Identifying Context-Dependent Translations for Evaluation Set Production [11.543673351369183]
文脈対応機械翻訳への移行に対する大きな障害は、優れた評価指標とテストセットがないことである。
我々は,5つの現象を翻訳するために文脈を必要とする文を含む並列文書のサブセットを識別するツールであるCTXPROを開発した。
パイプラインへの入力は、文脈的な文ペアを選択する手作り、言語ごと、言語的にインフォームドされたルールのセットである。
論文 参考訳(メタデータ) (2023-11-04T04:29:08Z) - Contextual Label Projection for Cross-Lingual Structured Prediction [103.55999471155104]
CLaPはテキストを対象言語に翻訳し、翻訳されたテキストをコンテキストとしてラベルにコンテキスト変換を行う。
39言語間のゼロショット言語間転送において,CLaPと他のラベル投影手法のベンチマークを行った。
論文 参考訳(メタデータ) (2023-09-16T10:27:28Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Seed Words Based Data Selection for Language Model Adaptation [11.59717828860318]
本稿では,テキストコーパスから文を自動的に選択する手法を提案する。
ベースラインモデルの語彙は拡張・調整され、OOVレートが低下する。
異なる測定値(OOVレート, WER, 精度, リコール)を用いて, 提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-07-20T12:08:27Z) - Structured Prediction as Translation between Augmented Natural Languages [109.50236248762877]
本研究では,構造化予測言語の課題を解決するために,新しいフレームワークであるTANL(Translation between Augmented Natural Languages)を提案する。
タスク固有の差別を訓練することで問題に取り組む代わりに、拡張自然言語間の翻訳タスクとして位置づける。
提案手法は, タスク固有のモデルに適合するか, 性能に優れ, 特に, 共同エンティティと関係抽出に関する新たな最先端結果が得られる。
論文 参考訳(メタデータ) (2021-01-14T18:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。