論文の概要: Building a Hebrew Semantic Role Labeling Lexical Resource from Parallel
Movie Subtitles
- arxiv url: http://arxiv.org/abs/2005.08206v1
- Date: Sun, 17 May 2020 10:03:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 05:36:55.556398
- Title: Building a Hebrew Semantic Role Labeling Lexical Resource from Parallel
Movie Subtitles
- Title(参考訳): パラレル映画のサブタイトルから語彙資源をラベル付けしたヘブライ語セマンティックロールの構築
- Authors: Ben Eyal and Michael Elhadad
- Abstract要約: 本稿では,英語からのアノテーション投影によって半自動構築されたヘブライ語における意味的役割のラベル付け資源を提案する。
このコーパスは多言語OpenSubtitlesデータセットから派生し、短い非公式文を含む。
FrameNetとPropBankの両スタイルで、形態解析、依存性の構文、セマンティックロールのラベル付けを含む、完全に注釈付けされたデータを提供する。
我々は、このヘブライ語リソース上で、事前訓練された多言語BERTトランスフォーマーモデルを利用して、ニューラルネットワークSRLモデルをトレーニングし、基準点として、Hebrew SRLの最初のベースラインモデルを提供する。
- 参考スコア(独自算出の注目度): 4.089055556130724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a semantic role labeling resource for Hebrew built
semi-automatically through annotation projection from English. This corpus is
derived from the multilingual OpenSubtitles dataset and includes short informal
sentences, for which reliable linguistic annotations have been computed. We
provide a fully annotated version of the data including morphological analysis,
dependency syntax and semantic role labeling in both FrameNet and PropBank
styles. Sentences are aligned between English and Hebrew, both sides include
full annotations and the explicit mapping from the English arguments to the
Hebrew ones. We train a neural SRL model on this Hebrew resource exploiting the
pre-trained multilingual BERT transformer model, and provide the first
available baseline model for Hebrew SRL as a reference point. The code we
provide is generic and can be adapted to other languages to bootstrap SRL
resources.
- Abstract(参考訳): 本稿では,英語からのアノテーション投影により半自動生成したヘブライ語に対する意味的役割ラベル付けリソースを提案する。
このコーパスは多言語opensubtitlesデータセットから派生し、信頼できる言語アノテーションが計算された短い非公式文を含む。
FrameNetとPropBankの両方のスタイルで、形態解析、依存性構文、セマンティックロールラベルを含む、完全に注釈付けされたデータを提供する。
文は英語とヘブライ語の間で一致しており、双方とも完全な注釈と英語の議論からヘブライ語への明示的なマッピングを含んでいる。
このヘブライ語リソース上でニューラルネットワークsrlモデルをトレーニングし,事前学習された多言語bertトランスフォーマーモデルを活用し,ヘブライ語srlを基準点として,最初のベースラインモデルを提供する。
私たちの提供するコードはジェネリックで、SRLリソースをブートストラップするために他の言語に適応することができます。
関連論文リスト
- Pretraining Data and Tokenizer for Indic LLM [1.7729311045335219]
我々は,多言語Indic大言語モデル構築のためのデータ準備のための新しいアプローチを開発する。
われわれの厳密なデータ取得は、Common Crawl、Indic Book、ニュース記事、Wikipediaなど、オープンソースとプロプライエタリなソースにまたがっている。
Indic言語毎に、冗長で低品質なテキストコンテンツを効果的に除去するカスタムプリプロセッシングパイプラインを設計する。
論文 参考訳(メタデータ) (2024-07-17T11:06:27Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Semantic Role Labeling Meets Definition Modeling: Using Natural Language
to Describe Predicate-Argument Structures [104.32063681736349]
本稿では,離散ラベルの代わりに自然言語定義を用いて述語-代名詞構造を記述する手法を提案する。
PropBankスタイルおよびFrameNetスタイル、依存性ベースおよびスパンベースSRLに関する実験と分析は、解釈可能な出力を持つフレキシブルモデルが必ずしも性能を犠牲にしないことを示す。
論文 参考訳(メタデータ) (2022-12-02T11:19:16Z) - Cross-lingual alignments of ELMo contextual embeddings [0.0]
言語間埋め込みは、低リソース言語から高リソース言語への単語の埋め込みをマッピングする。
最近の文脈埋め込みの言語間マッピングを作成するには、埋め込み空間間のアンカーポイントは、同じ文脈における単語でなければならない。
ELMo埋め込みのための新しい言語間マッピング手法を提案する。
論文 参考訳(メタデータ) (2021-06-30T11:26:43Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - X-SRL: A Parallel Cross-Lingual Semantic Role Labeling Dataset [18.389328059694037]
本研究では,英語,フランス語,ドイツ語,スペイン語の4言語で並列なSRLコーパスを自動構築する手法を提案する。
我々は,投影品質を測定するために使用する有能なテストセットを含め,プロジェクションが強いベースラインよりも密度が高く,精度が高いことを示す。最後に,モノリンガルSRLとマルチリンガルSRLのための新しいコーパスで異なるSOTAモデルを訓練し,多言語アノテーションが特に弱い言語の性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-05T13:34:20Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。