論文の概要: WSPAlign: Word Alignment Pre-training via Large-Scale Weakly Supervised
Span Prediction
- arxiv url: http://arxiv.org/abs/2306.05644v2
- Date: Thu, 19 Oct 2023 05:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 20:00:32.667958
- Title: WSPAlign: Word Alignment Pre-training via Large-Scale Weakly Supervised
Span Prediction
- Title(参考訳): WSPAlign: 大規模監視スパン予測による単語アライメント事前学習
- Authors: Qiyu Wu, Masaaki Nagata, Yoshimasa Tsuruoka
- Abstract要約: 既存の単語アライメント手法の多くは、手動アライメントデータセットやパラレルコーパスに依存している。
我々は正しい、完全に整合した、平行した文の要求を緩和する。
次に、このような大規模弱教師付きデータセットを用いて、スパン予測による単語アライメント事前学習を行う。
- 参考スコア(独自算出の注目度): 31.96433679860807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing word alignment methods rely on manual alignment datasets or
parallel corpora, which limits their usefulness. Here, to mitigate the
dependence on manual data, we broaden the source of supervision by relaxing the
requirement for correct, fully-aligned, and parallel sentences. Specifically,
we make noisy, partially aligned, and non-parallel paragraphs. We then use such
a large-scale weakly-supervised dataset for word alignment pre-training via
span prediction. Extensive experiments with various settings empirically
demonstrate that our approach, which is named WSPAlign, is an effective and
scalable way to pre-train word aligners without manual data. When fine-tuned on
standard benchmarks, WSPAlign has set a new state-of-the-art by improving upon
the best-supervised baseline by 3.3~6.1 points in F1 and 1.5~6.1 points in AER.
Furthermore, WSPAlign also achieves competitive performance compared with the
corresponding baselines in few-shot, zero-shot and cross-lingual tests, which
demonstrates that WSPAlign is potentially more practical for low-resource
languages than existing methods.
- Abstract(参考訳): 既存の単語アライメント手法のほとんどは手動アライメントデータセットや並列コーパスに依存しており、その有用性を制限している。
本稿では,手動データへの依存を緩和するために,正文,完全整列文,平行文の要求を緩和することで,監督の源泉を広げる。
具体的には、ノイズ、部分的なアライメント、および非並列段落を作成します。
次に、このような大規模弱教師付きデータセットを用いて、スパン予測による単語アライメント事前学習を行う。
様々な設定による大規模な実験は、WSPAlignという名前の我々のアプローチが、手動データなしで単語整合を事前訓練するための効果的でスケーラブルな方法であることを実証的に示している。
標準ベンチマークを微調整すると、WSPAlignはF1では3.3~6.1点、AERでは1.5~6.1点の改善により、新しい最先端技術を設定した。
さらに、wspalignは、none-shot、zero-shot、cross-lingualのテストで対応するベースラインと比較しても、競争力のあるパフォーマンスを実現しています。
関連論文リスト
- SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Constrained Density Matching and Modeling for Cross-lingual Alignment of
Contextualized Representations [27.74320705109685]
我々は,正規化フローによって駆動されるReal-NVPとGAN-Real-NVPという,教師付きおよび教師なしの密度ベースアプローチを導入し,アライメントを行う。
実験では、6つの言語対、合成データ、4つのNLPタスクで評価された16のアライメントについて検討した。
論文 参考訳(メタデータ) (2022-01-31T18:41:28Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Cross-lingual Alignment Methods for Multilingual BERT: A Comparative
Study [2.101267270902429]
ゼロショット設定におけるmBERTの転送能力に異なる言語間監督形態と様々なアライメント手法がどう影響するかを解析する。
並列コーパスの監督は概ね辞書アライメントよりも優れている。
論文 参考訳(メタデータ) (2020-09-29T20:56:57Z) - A Supervised Word Alignment Method based on Cross-Language Span
Prediction using Multilingual BERT [22.701728185474195]
まず、単語アライメント問題を、原文のトークンから対象文のスパンへの独立予測の集合として定式化する。
次に、手作業で作成したゴールドワードアライメントデータに基づいて微調整された多言語BERTを用いて、この問題を解決する。
提案手法は,事前学習にビットクストを用いることなく,従来の教師付き単語アライメント法と教師なし単語アライメント法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2020-04-29T23:40:08Z) - SimAlign: High Quality Word Alignments without Parallel Training Data
using Static and Contextualized Embeddings [3.8424737607413153]
並列データを必要としない単語アライメント手法を提案する。
鍵となる考え方は、単語アライメントに静的および文脈化された多言語単語埋め込みを活用することである。
埋め込みから生成されるアライメントは,従来の統計手法よりも2つの言語ペアの方が優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-18T23:10:36Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。