論文の概要: SilverAlign: MT-Based Silver Data Algorithm For Evaluating Word
Alignment
- arxiv url: http://arxiv.org/abs/2210.06207v1
- Date: Wed, 12 Oct 2022 13:48:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:12:36.814804
- Title: SilverAlign: MT-Based Silver Data Algorithm For Evaluating Word
Alignment
- Title(参考訳): SilverAlign: MTベースの単語アライメント評価のためのシルバーデータアルゴリズム
- Authors: Abdullatif K\"oksal, Silvia Severini, Hinrich Sch\"utze
- Abstract要約: 単語ペアの評価のための銀データを自動的に生成する新しい手法であるSilverAlignを提案する。
シルバーデータのパフォーマンスは、9つの言語ペアのゴールドベンチマークとよく相関していることを示す。
- 参考スコア(独自算出の注目度): 0.2062593640149624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word alignments are essential for a variety of NLP tasks. Therefore, choosing
the best approaches for their creation is crucial. However, the scarce
availability of gold evaluation data makes the choice difficult. We propose
SilverAlign, a new method to automatically create silver data for the
evaluation of word aligners by exploiting machine translation and minimal
pairs. We show that performance on our silver data correlates well with gold
benchmarks for 9 language pairs, making our approach a valid resource for
evaluation of different domains and languages when gold data are not available.
This addresses the important scenario of missing gold data alignments for
low-resource languages.
- Abstract(参考訳): 単語アライメントは様々なNLPタスクに必須である。
したがって、彼らの創造に最適なアプローチを選択することは重要です。
しかし、金の評価データが入手できないため、選択は困難である。
機械翻訳と最小ペアを利用した単語整合性評価のための銀データの自動生成手法であるSilverAlignを提案する。
シルバーデータの性能は9つの言語ペアのゴールドベンチマークとよく相関しており、ゴールドデータが利用できない場合の異なるドメインや言語の評価に有効なリソースとなっている。
これは低リソース言語におけるゴールドデータアライメントの欠如という重要なシナリオに対処する。
関連論文リスト
- BinaryAlign: Word Alignment as Binary Sequence Labeling [2.5575527199248347]
本稿では,バイナリシーケンスラベリングに基づく単語アライメント手法であるBinaryAlignを提案する。
非英語対におけるBinaryAlignの性能について検討する。
論文 参考訳(メタデータ) (2024-07-16T15:11:06Z) - Language Model as an Annotator: Unsupervised Context-aware Quality
Phrase Generation [20.195149109523314]
LMPhraseは,大規模な事前学習言語モデル(LM)上に構築された,教師なしの高品質なフレーズマイニングフレームワークである。
具体的には,事前学習された言語モデルBERT上で,パラメータフリーな探索手法であるPerturbed Maskingを用いて,まず品質フレーズを銀ラベルとして抽出する。
一般的な統計ベースや遠方で管理される手法とは対照的に、我々の銀ラベルは、大規模な事前学習言語モデルから派生したもので、LMに含まれる豊富な文脈情報を考慮に入れている。
論文 参考訳(メタデータ) (2023-12-28T20:32:44Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Multilingual Coreference Resolution in Multiparty Dialogue [29.92954906275944]
そこで我々は,テレビの文字起こしに基づく大規模データセットであるMultilingual Multiparty Corefを構築した。
複数の言語でゴールド品質の字幕が利用できるため、他の言語で銀のコア参照解決データを作成するためにアノテーションを再利用することを提案する。
データ拡張とゼロショットの言語間設定を効果的にシミュレートするスクラッチからのトレーニングの両方に使用することに成功したのです。
論文 参考訳(メタデータ) (2022-08-02T08:27:00Z) - HintedBT: Augmenting Back-Translation with Quality and Transliteration
Hints [7.452359972117693]
標的単言語コーパスのバックトランスレーションは、ニューラルマシン翻訳(NMT)に広く用いられているデータ拡張戦略である
私たちは、エンコーダとデコーダにヒント(タグを通して)を提供するテクニックのファミリーであるHintedBTを紹介します。
これらのヒントを別々に使用することで翻訳品質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-09-09T17:43:20Z) - Smelting Gold and Silver for Improved Multilingual AMR-to-Text
Generation [55.117031558677674]
AMRアノテーションの自動生成技術について検討する。
我々のモデルは、生成した銀AMRを利用する銀(機械翻訳)文で金AMRを訓練した。
我々のモデルは、ドイツ、イタリア、スペイン、中国の芸術のこれまでの状態を大きく上回っている。
論文 参考訳(メタデータ) (2021-09-08T17:55:46Z) - Majority Voting with Bidirectional Pre-translation For Bitext Retrieval [2.580271290008534]
一般的なアプローチは、2つの言語でペアの文書からいわゆる"pseudo-parallel"文をマイニングすることであった。
本稿では,現状の手法による問題を概説し,それらの問題に対する計算経済的解決策を提案し,新しい手法による成功を実証する。
実験に使用されるコードとデータは公開されています。
論文 参考訳(メタデータ) (2021-03-10T22:24:01Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Context-Based Quotation Recommendation [60.93257124507105]
本稿では,新しい文脈対応引用レコメンデーションシステムを提案する。
これは、所定のソース文書から引用可能な段落とトークンの列挙リストを生成する。
音声テキストと関連するニュース記事の収集実験を行う。
論文 参考訳(メタデータ) (2020-05-17T17:49:53Z) - Improving Candidate Generation for Low-resource Cross-lingual Entity
Linking [81.41804263432684]
XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。
本稿では,(1)エンティティ参照とKBエントリの切断を減らすこと,(2)低リソースシナリオへのモデルの堅牢性を改善すること,の3つの改良を提案する。
論文 参考訳(メタデータ) (2020-03-03T05:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。