論文の概要: T-Projection: High Quality Annotation Projection for Sequence Labeling
Tasks
- arxiv url: http://arxiv.org/abs/2212.10548v2
- Date: Tue, 24 Oct 2023 10:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 03:30:11.399232
- Title: T-Projection: High Quality Annotation Projection for Sequence Labeling
Tasks
- Title(参考訳): T-Projection:シーケンスラベリングタスクのための高品質アノテーションプロジェクション
- Authors: Iker Garc\'ia-Ferrero, Rodrigo Agerri, German Rigau
- Abstract要約: 与えられたシーケンスラベリングタスクと言語に対して容易にラベル付けされたデータがないため、アノテーションプロジェクションはデータを自動的に生成する戦略のひとつとして提案されている。
我々は,大規模な事前訓練されたテキスト・テキスト言語モデルと最先端機械翻訳技術を活用したアノテーション投影の新しい手法であるT-プロジェクションを提案する。
- 参考スコア(独自算出の注目度): 8.916420423563478
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In the absence of readily available labeled data for a given sequence
labeling task and language, annotation projection has been proposed as one of
the possible strategies to automatically generate annotated data. Annotation
projection has often been formulated as the task of transporting, on parallel
corpora, the labels pertaining to a given span in the source language into its
corresponding span in the target language. In this paper we present
T-Projection, a novel approach for annotation projection that leverages large
pretrained text-to-text language models and state-of-the-art machine
translation technology. T-Projection decomposes the label projection task into
two subtasks: (i) A candidate generation step, in which a set of projection
candidates using a multilingual T5 model is generated and, (ii) a candidate
selection step, in which the generated candidates are ranked based on
translation probabilities. We conducted experiments on intrinsic and extrinsic
tasks in 5 Indo-European and 8 low-resource African languages. We demostrate
that T-projection outperforms previous annotation projection methods by a wide
margin. We believe that T-Projection can help to automatically alleviate the
lack of high-quality training data for sequence labeling tasks. Code and data
are publicly available.
- Abstract(参考訳): 与えられたシーケンスラベリングタスクと言語に対するラベル付きデータがないため、アノテーションプロジェクションは注釈付きデータを自動的に生成する戦略のひとつとして提案されている。
アノテーションプロジェクションはしばしば、並列コーパス上で、ソース言語の与えられたスパンに関連するラベルをターゲット言語の対応するスパンに転送するタスクとして定式化されている。
本稿では,大規模な事前学習されたテキスト・テキスト言語モデルと最先端機械翻訳技術を活用したアノテーション投影手法T-Projectionを提案する。
T-プロジェクションはラベルプロジェクションタスクを2つのサブタスクに分解する。
(i)多言語t5モデルを用いた投影候補の集合を生成した候補生成ステップ
(ii)翻訳確率に基づいて生成候補をランク付けする候補選択ステップ。
5つのインド・ヨーロッパ語と8つの低資源アフリカの言語において内在的および外在的タスクについて実験を行った。
我々は、T射影が従来のアノテーション投影法よりも広いマージンで優れていると評価した。
我々は、T-Projectionがシーケンスラベリングタスクにおける高品質なトレーニングデータの欠如を自動的に緩和するのに役立つと考えている。
コードとデータは公開されている。
関連論文リスト
- Universal Cross-Lingual Text Classification [0.3958317527488535]
本研究は,言語横断テキスト分類における新たな視点を提案する。
我々のアプローチは、訓練中に異なる言語からの教師付きデータをブレンドして普遍的なモデルを作成することである。
主な目標は、ラベルと言語カバレッジを強化することであり、様々な言語のラベルの結合を表すラベルセットを目指している。
論文 参考訳(メタデータ) (2024-06-16T17:58:29Z) - Constrained Decoding for Cross-lingual Label Projection [27.567195418950966]
ラベル付き学習データを持たない低リソース言語では,多言語 LLM を用いた言語間移動が一般的な学習パラダイムとなっている。
しかし、単語やフレーズの微粒な予測を含むNLPタスクでは、ゼロショットの言語間移動学習は教師付き微調整法よりもはるかに遅れている。
論文 参考訳(メタデータ) (2024-02-05T15:57:32Z) - Contextual Label Projection for Cross-Lingual Structured Prediction [103.55999471155104]
CLaPはテキストを対象言語に翻訳し、翻訳されたテキストをコンテキストとしてラベルにコンテキスト変換を行う。
39言語間のゼロショット言語間転送において,CLaPと他のラベル投影手法のベンチマークを行った。
論文 参考訳(メタデータ) (2023-09-16T10:27:28Z) - Transfer-Free Data-Efficient Multilingual Slot Labeling [82.02076369811402]
スロットラベリングはタスク指向対話(ToD)システムの中核的なコンポーネントである。
固有データ不足の問題を緩和するために、多言語ToDに関する現在の研究は、十分な英語の注釈付きデータが常に利用可能であると仮定している。
標準的な多言語文エンコーダを効果的なスロットラベリングに変換する2段階のスロットラベリング手法(TWOSL)を提案する。
論文 参考訳(メタデータ) (2023-05-22T22:47:32Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - MTOP: A Comprehensive Multilingual Task-Oriented Semantic Parsing
Benchmark [31.91964553419665]
我々はMTOPと呼ばれる新しい多言語データセットを提案し、11ドメインの6言語で100kの注釈付き発話を合成する。
既存の2つの多言語データセットに対して、Slot F1上の+6.3ポイントの平均的な改善を、実験で報告された最良の結果よりも達成する。
本稿では,事前学習モデルと自動翻訳とアライメントを組み合わせたゼロショット性能と,スロットラベル投影におけるノイズ低減のための遠隔監視手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T07:02:11Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。