論文の概要: BinaryAlign: Word Alignment as Binary Sequence Labeling
- arxiv url: http://arxiv.org/abs/2407.12881v1
- Date: Tue, 16 Jul 2024 15:11:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 19:52:52.681112
- Title: BinaryAlign: Word Alignment as Binary Sequence Labeling
- Title(参考訳): BinaryAlign:バイナリシーケンスラベリングとしての単語アライメント
- Authors: Gaetan Lopez Latouche, Marc-André Carbonneau, Ben Swanson,
- Abstract要約: 本稿では,バイナリシーケンスラベリングに基づく単語アライメント手法であるBinaryAlignを提案する。
非英語対におけるBinaryAlignの性能について検討する。
- 参考スコア(独自算出の注目度): 2.5575527199248347
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real world deployments of word alignment are almost certain to cover both high and low resource languages. However, the state-of-the-art for this task recommends a different model class depending on the availability of gold alignment training data for a particular language pair. We propose BinaryAlign, a novel word alignment technique based on binary sequence labeling that outperforms existing approaches in both scenarios, offering a unifying approach to the task. Additionally, we vary the specific choice of multilingual foundation model, perform stratified error analysis over alignment error type, and explore the performance of BinaryAlign on non-English language pairs. We make our source code publicly available.
- Abstract(参考訳): 単語アライメントの現実的な展開は、高リソース言語と低リソース言語の両方をカバーすることがほぼ確実である。
しかし、このタスクの最先端は、特定の言語ペアに対するゴールドアライメントトレーニングデータの可用性に応じて、異なるモデルクラスを推奨する。
両シナリオの既存手法よりも優れたバイナリシーケンスラベリングに基づく新しい単語アライメント手法であるBinaryAlignを提案する。
さらに,多言語基盤モデルの具体的選択に違いがあり,アライメントエラー型よりも階層化された誤り解析を行い,非英語言語対上でのBinaryAlignの性能について検討する。
ソースコードを公開しています。
関連論文リスト
- Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Subword Sampling for Low Resource Word Alignment [4.663577299263155]
テキスト単位のサブワードサンプリングに基づくアライメントを提案する。
サブワードサンプリング法が6つの言語ペアの単語レベルアライメントを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2020-12-21T19:47:04Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Cross-lingual Alignment Methods for Multilingual BERT: A Comparative
Study [2.101267270902429]
ゼロショット設定におけるmBERTの転送能力に異なる言語間監督形態と様々なアライメント手法がどう影響するかを解析する。
並列コーパスの監督は概ね辞書アライメントよりも優れている。
論文 参考訳(メタデータ) (2020-09-29T20:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。