論文の概要: Event-Arguments Extraction Corpus and Modeling using BERT for Arabic
- arxiv url: http://arxiv.org/abs/2407.21153v1
- Date: Tue, 30 Jul 2024 19:32:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 19:24:51.163107
- Title: Event-Arguments Extraction Corpus and Modeling using BERT for Arabic
- Title(参考訳): アラビア語におけるBERTを用いたイベント列抽出コーパスとモデリング
- Authors: Alaa Aljabari, Lina Duaibes, Mustafa Jarrar, Mohammed Khalilia,
- Abstract要約: イベント・アグメントの抽出は難しい課題であり、特にアラビア語では言語資源が乏しいためである。
我々はWojoodの拡張としてhaath corpus(550$kトークン)を導入し、イベント引数アノテーションを充実させた。
本稿では,BERTを用いたイベント関係抽出手法を提案する。
- 参考スコア(独自算出の注目度): 0.4999814847776097
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Event-argument extraction is a challenging task, particularly in Arabic due to sparse linguistic resources. To fill this gap, we introduce the \hadath corpus ($550$k tokens) as an extension of Wojood, enriched with event-argument annotations. We used three types of event arguments: $agent$, $location$, and $date$, which we annotated as relation types. Our inter-annotator agreement evaluation resulted in $82.23\%$ $Kappa$ score and $87.2\%$ $F_1$-score. Additionally, we propose a novel method for event relation extraction using BERT, in which we treat the task as text entailment. This method achieves an $F_1$-score of $94.01\%$. To further evaluate the generalization of our proposed method, we collected and annotated another out-of-domain corpus (about $80$k tokens) called \testNLI and used it as a second test set, on which our approach achieved promising results ($83.59\%$ $F_1$-score). Last but not least, we propose an end-to-end system for event-arguments extraction. This system is implemented as part of SinaTools, and both corpora are publicly available at {\small \url{https://sina.birzeit.edu/wojood}}
- Abstract(参考訳): イベント・アグメントの抽出は難しい課題であり、特にアラビア語では言語資源が乏しいためである。
このギャップを埋めるために、Wojoodの拡張としてShahadath corpus(550$kトークン)を紹介します。
イベント引数には、$agent$、$location$、$date$という3つのタイプを使用しました。
アノテーション間の合意評価の結果、$Kappa$スコアが82.23\%、$F_1$スコアが87.2\%となった。
また,BERTを用いたイベント関係抽出手法を提案する。
この方法は、$F_1$-scoreの94.01\%$を達成する。
提案手法の一般化を更に評価するため,我々は,testNLIと呼ばれる別のドメイン外コーパス(約80$kトークン)を収集し,第2のテストセットとして使用し,提案手法が有望な結果(83.59\%$$F_1$-score)を達成した。
最後に,イベント抽出のためのエンドツーエンドシステムを提案する。
このシステムはSinaToolsの一部として実装されており、両方のコーパスは {\small \url{https://sina.birzeit.edu/wojood}} で公開されている。
関連論文リスト
- Federated UCBVI: Communication-Efficient Federated Regret Minimization with Heterogeneous Agents [13.391318494060975]
We present the Federated upper Confidence bound Value Iteration algorithm (textttFed-UCBVI$)
textttFed-UCBVI$ の後悔は $tildemathcalO(sqrtH3 |mathcalS| |mathcalA| T / M)$ としてスケールすることを証明する。
既存の強化学習アプローチとは異なり、$textttFed-UCBVI$の通信複雑性は、その数によってわずかに増加する。
論文 参考訳(メタデータ) (2024-10-30T11:05:50Z) - Asynchronous Approximate Agreement with Quadratic Communication [23.27199615640474]
非同期ネットワークは$n$のメッセージ送信パーティで、そのうちの最大$t$はビザンチンです。
本研究では,入力の凸内積にほぼ等しい出力が得られるような近似一致について検討する。
これは、信頼できるブロードキャスト毎に$Theta(n2)$メッセージ、またはイテレーション毎に$Theta(n3)$メッセージを取る。
論文 参考訳(メタデータ) (2024-08-10T09:03:06Z) - Perturb-and-Project: Differentially Private Similarities and Marginals [73.98880839337873]
差分プライバシーのための入力摂動フレームワークを再検討し、入力にノイズを付加する。
まず、ペアワイズ・コサイン類似性をプライベートにリリースするための新しい効率的なアルゴリズムを設計する。
我々は,$k$の辺縁クエリを$n$の機能に対して計算する新しいアルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-06-07T12:07:16Z) - Superposed Decoding: Multiple Generations from a Single Autoregressive Inference Pass [72.07642648108849]
Superposed Decodingは、1つの自己回帰推論パスのコストで$k$のドラフトを生成する新しい復号アルゴリズムである。
Superposed Decodingは、他のデコード戦略と組み合わせることで、推論時間計算のスケーリング時に普遍的なカバレッジが向上する。
論文 参考訳(メタデータ) (2024-05-28T17:40:48Z) - Mechanics of Next Token Prediction with Self-Attention [41.82477691012942]
トランスフォーマーベースの言語モデルは、入力シーケンスが与えられた次のトークンを予測するために、大きなデータセットでトレーニングされる。
勾配降下による自己注意の訓練は,次のトークンを2つの異なるステップで生成するオートマトンを学習することを示す。
これらの発見が、どのように自己認識がシーケンシャルなデータをどのように処理し、より複雑なアーキテクチャをデミステライズする道を開くか、光を当てることを願っています。
論文 参考訳(メタデータ) (2024-03-12T21:15:38Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Wojood: Nested Arabic Named Entity Corpus and Recognition using BERT [1.2891210250935146]
Wojoodは550K Modern Standard Arabic (MSA)と21のエンティティタイプで手動で注釈付けされた方言トークンで構成されている。
データには約75Kのエンティティが含まれ、うち22.5%がネストされている。
私たちのコーパス、アノテーションガイドライン、ソースコード、事前訓練されたモデルが公開されています。
論文 参考訳(メタデータ) (2022-05-19T16:06:49Z) - Scaling up sign spotting through sign language dictionaries [99.50956498009094]
この作業の焦点は、$textitsign spotting$ - 分離されたサインのビデオの場合、$textitwwhere$ と $textitwhere$ の識別が、連続的かつ協調的な手話ビデオで署名されている。
我々は,(1) $textitwatching$既存の映像を口コミでスムーズにラベル付けする,(2) $textitreading$ associated subtitles that provide additional translations of the signed content。
アプローチの有効性を低く検証する。
論文 参考訳(メタデータ) (2022-05-09T10:00:03Z) - Gap-Dependent Unsupervised Exploration for Reinforcement Learning [40.990467706237396]
タスクに依存しない強化学習のための効率的なアルゴリズムを提案する。
このアルゴリズムは1/epsilon cdot (H3SA / rho + H4 S2 A) の$widetildemathcalOのみを探索する。
情報理論上、この境界は$rho Theta (1/(HS))$と$H>1$に対してほぼ厳密であることを示す。
論文 参考訳(メタデータ) (2021-08-11T20:42:46Z) - On the Power of Multitask Representation Learning in Linear MDP [61.58929164172968]
本稿では,線形マルコフ決定過程(MDP)におけるマルチタスク表現学習の統計的メリットについて分析する。
簡単な最小二乗アルゴリズムが $tildeO(H2sqrtfrackappa MathcalC(Phi)2 kappa dNT+frackappa dn) というポリシーを学ぶことを証明した。
論文 参考訳(メタデータ) (2021-06-15T11:21:06Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。