論文の概要: T-Projection: High Quality Annotation Projection for Sequence Labeling
Tasks
- arxiv url: http://arxiv.org/abs/2212.10548v1
- Date: Tue, 20 Dec 2022 18:51:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 16:05:48.003916
- Title: T-Projection: High Quality Annotation Projection for Sequence Labeling
Tasks
- Title(参考訳): T-Projection:シーケンスラベリングタスクのための高品質アノテーションプロジェクション
- Authors: Iker Garc\'ia-Ferrero, Rodrigo Agerri, German Rigau
- Abstract要約: T-Projectionは、大規模な事前訓練されたテキスト2テキスト言語モデルと最先端機械翻訳技術を活用する、アノテーションプロジェクションのための新しいアプローチである。
以上の結果から, 従来手法の平均F1スコアは8ポイント以上向上した。
- 参考スコア(独自算出の注目度): 10.871587311621974
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In the absence of readily available labeled data for a given task and
language, annotation projection has been proposed as one of the possible
strategies to automatically generate annotated data which may then be used to
train supervised systems. Annotation projection has often been formulated as
the task of projecting, on parallel corpora, some labels from a source into a
target language. In this paper we present T-Projection, a new approach for
annotation projection that leverages large pretrained text2text language models
and state-of-the-art machine translation technology. T-Projection decomposes
the label projection task into two subtasks: (i) The candidate generation step,
in which a set of projection candidates using a multilingual T5 model is
generated and, (ii) the candidate selection step, in which the candidates are
ranked based on translation probabilities. We evaluate our method in three
downstream tasks and five different languages. Our results show that
T-projection improves the average F1 score of previous methods by more than 8
points.
- Abstract(参考訳): 与えられたタスクや言語のためのラベル付きデータがない場合、アノテーションプロジェクションは、教師付きシステムのトレーニングに使用できる注釈付きデータを自動的に生成する可能性のある戦略の1つとして提案されている。
アノテーションの投影はしばしば、ソースからターゲット言語へのラベルを並列コーパスで投影するタスクとして定式化されている。
本稿では,大規模な事前学習されたテキスト2テキスト言語モデルと最先端機械翻訳技術を活用したアノテーション投影手法T-Projectionを提案する。
T-プロジェクションはラベルプロジェクションタスクを2つのサブタスクに分解する。
(i)多言語t5モデルを用いた投影候補の集合を生成した候補生成ステップ
二 候補選択の段階であって、その候補が翻訳確率に基づいてランク付けされるもの
提案手法を3つの下流タスクと5つの異なる言語で評価する。
その結果,t-プロジェクションは従来手法の平均f1得点を8点以上向上させた。
関連論文リスト
- Universal Cross-Lingual Text Classification [0.3958317527488535]
本研究は,言語横断テキスト分類における新たな視点を提案する。
我々のアプローチは、訓練中に異なる言語からの教師付きデータをブレンドして普遍的なモデルを作成することである。
主な目標は、ラベルと言語カバレッジを強化することであり、様々な言語のラベルの結合を表すラベルセットを目指している。
論文 参考訳(メタデータ) (2024-06-16T17:58:29Z) - Constrained Decoding for Cross-lingual Label Projection [27.567195418950966]
ラベル付き学習データを持たない低リソース言語では,多言語 LLM を用いた言語間移動が一般的な学習パラダイムとなっている。
しかし、単語やフレーズの微粒な予測を含むNLPタスクでは、ゼロショットの言語間移動学習は教師付き微調整法よりもはるかに遅れている。
論文 参考訳(メタデータ) (2024-02-05T15:57:32Z) - Contextual Label Projection for Cross-Lingual Structured Prediction [103.55999471155104]
CLaPはテキストを対象言語に翻訳し、翻訳されたテキストをコンテキストとしてラベルにコンテキスト変換を行う。
39言語間のゼロショット言語間転送において,CLaPと他のラベル投影手法のベンチマークを行った。
論文 参考訳(メタデータ) (2023-09-16T10:27:28Z) - Transfer-Free Data-Efficient Multilingual Slot Labeling [82.02076369811402]
スロットラベリングはタスク指向対話(ToD)システムの中核的なコンポーネントである。
固有データ不足の問題を緩和するために、多言語ToDに関する現在の研究は、十分な英語の注釈付きデータが常に利用可能であると仮定している。
標準的な多言語文エンコーダを効果的なスロットラベリングに変換する2段階のスロットラベリング手法(TWOSL)を提案する。
論文 参考訳(メタデータ) (2023-05-22T22:47:32Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - MTOP: A Comprehensive Multilingual Task-Oriented Semantic Parsing
Benchmark [31.91964553419665]
我々はMTOPと呼ばれる新しい多言語データセットを提案し、11ドメインの6言語で100kの注釈付き発話を合成する。
既存の2つの多言語データセットに対して、Slot F1上の+6.3ポイントの平均的な改善を、実験で報告された最良の結果よりも達成する。
本稿では,事前学習モデルと自動翻訳とアライメントを組み合わせたゼロショット性能と,スロットラベル投影におけるノイズ低減のための遠隔監視手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T07:02:11Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。