論文の概要: Adaptative Bilingual Aligning Using Multilingual Sentence Embedding
- arxiv url: http://arxiv.org/abs/2403.11921v1
- Date: Mon, 18 Mar 2024 16:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 19:40:35.764341
- Title: Adaptative Bilingual Aligning Using Multilingual Sentence Embedding
- Title(参考訳): 多言語文埋め込みを用いた適応的バイリンガルアライディング
- Authors: Olivier Kraif,
- Abstract要約: 我々はAIlignと呼ばれる適応的なビット情報アライメントシステムを提案する。
文の埋め込みに依存して、アライメントパスをガイドできる信頼できるアンカーポイントを抽出する。
いくつかのデータセットの実験において、AIlignは、準線形複雑度で、芸術の状態と同等の結果が得られることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present an adaptive bitextual alignment system called AIlign. This aligner relies on sentence embeddings to extract reliable anchor points that can guide the alignment path, even for texts whose parallelism is fragmentary and not strictly monotonic. In an experiment on several datasets, we show that AIlign achieves results equivalent to the state of the art, with quasi-linear complexity. In addition, AIlign is able to handle texts whose parallelism and monotonicity properties are only satisfied locally, unlike recent systems such as Vecalign or Bertalign.
- Abstract(参考訳): 本稿では,AIlignと呼ばれる適応的ビット情報アライメントシステムを提案する。
このアライダは文の埋め込みに依存して、並列性が断片的で厳密に単調ではないテキストであってもアライメントパスを導くことのできる信頼できるアンカーポイントを抽出する。
いくつかのデータセットに対する実験では、AIlignが準線形複雑性を持つ最先端技術に匹敵する結果が得られることを示した。
さらに、AIlignは、VecalignやBertalignのような最近のシステムとは異なり、並列性と単調性の性質が局所的にのみ満足されるテキストを扱うことができる。
関連論文リスト
- Following the Autoregressive Nature of LLM Embeddings via Compression and Alignment [69.67015515485349]
本稿では,条件付き確率分布を埋め込んだコントラスト学習手法であるAutoRegEmbedを提案する。
本手法は従来のコントラスト学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-17T03:36:25Z) - How Transliterations Improve Crosslingual Alignment [48.929677368744606]
近年の研究では、アライメント目的を用いた多言語事前学習言語モデル(mPLM)が言語横断アライメントを改善することが示されている。
本稿では, 言語間のアライメントを明示的に評価し, 翻訳に基づくアプローチにおける重要な要素を同定し, 性能向上に寄与する。
論文 参考訳(メタデータ) (2024-09-25T20:05:45Z) - Soft Alignment of Modality Space for End-to-end Speech Translation [49.29045524083467]
エンドツーエンドの音声翻訳は、音声を統一されたモデル内でターゲットテキストに変換することを目的としている。
音声とテキストのモダリティの固有の違いは、しばしば効果的なクロスモーダルとクロスリンガルの移動を妨げる。
両モードの表現空間を整列させるために, 対角訓練を用いたソフトアライメント(S-Align)を導入する。
論文 参考訳(メタデータ) (2023-12-18T06:08:51Z) - WSPAlign: Word Alignment Pre-training via Large-Scale Weakly Supervised
Span Prediction [31.96433679860807]
既存の単語アライメント手法の多くは、手動アライメントデータセットやパラレルコーパスに依存している。
我々は正しい、完全に整合した、平行した文の要求を緩和する。
次に、このような大規模弱教師付きデータセットを用いて、スパン予測による単語アライメント事前学習を行う。
論文 参考訳(メタデータ) (2023-06-09T03:11:42Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Using Optimal Transport as Alignment Objective for fine-tuning
Multilingual Contextualized Embeddings [7.026476782041066]
我々は,マルチリンガルな文脈化表現を改善するために,微調整時のアライメント目的として最適輸送(OT)を提案する。
このアプローチでは、微調整の前に単語アライメントペアを必要とせず、教師なしの方法で文脈内の単語アライメントを学習する。
論文 参考訳(メタデータ) (2021-10-06T16:13:45Z) - Zero-Shot Cross-Lingual Dependency Parsing through Contextual Embedding
Transformation [7.615096161060399]
クロスリンガル埋め込み空間マッピングは通常、静的ワードレベル埋め込みで研究される。
感覚レベルと辞書のない文脈埋め込みアライメントアプローチを検討する。
組み込み変換によって構築された概念共有空間によるゼロショット依存性解析の実験は、多言語埋め込みを使用して最先端の方法を大幅に上回る。
論文 参考訳(メタデータ) (2021-03-03T06:50:43Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - SimAlign: High Quality Word Alignments without Parallel Training Data
using Static and Contextualized Embeddings [3.8424737607413153]
並列データを必要としない単語アライメント手法を提案する。
鍵となる考え方は、単語アライメントに静的および文脈化された多言語単語埋め込みを活用することである。
埋め込みから生成されるアライメントは,従来の統計手法よりも2つの言語ペアの方が優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-18T23:10:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。