論文の概要: Adaptative Bilingual Aligning Using Multilingual Sentence Embedding
- arxiv url: http://arxiv.org/abs/2403.11921v1
- Date: Mon, 18 Mar 2024 16:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 19:40:35.764341
- Title: Adaptative Bilingual Aligning Using Multilingual Sentence Embedding
- Title(参考訳): 多言語文埋め込みを用いた適応的バイリンガルアライディング
- Authors: Olivier Kraif,
- Abstract要約: 我々はAIlignと呼ばれる適応的なビット情報アライメントシステムを提案する。
文の埋め込みに依存して、アライメントパスをガイドできる信頼できるアンカーポイントを抽出する。
いくつかのデータセットの実験において、AIlignは、準線形複雑度で、芸術の状態と同等の結果が得られることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present an adaptive bitextual alignment system called AIlign. This aligner relies on sentence embeddings to extract reliable anchor points that can guide the alignment path, even for texts whose parallelism is fragmentary and not strictly monotonic. In an experiment on several datasets, we show that AIlign achieves results equivalent to the state of the art, with quasi-linear complexity. In addition, AIlign is able to handle texts whose parallelism and monotonicity properties are only satisfied locally, unlike recent systems such as Vecalign or Bertalign.
- Abstract(参考訳): 本稿では,AIlignと呼ばれる適応的ビット情報アライメントシステムを提案する。
このアライダは文の埋め込みに依存して、並列性が断片的で厳密に単調ではないテキストであってもアライメントパスを導くことのできる信頼できるアンカーポイントを抽出する。
いくつかのデータセットに対する実験では、AIlignが準線形複雑性を持つ最先端技術に匹敵する結果が得られることを示した。
さらに、AIlignは、VecalignやBertalignのような最近のシステムとは異なり、並列性と単調性の性質が局所的にのみ満足されるテキストを扱うことができる。
関連論文リスト
- Soft Alignment of Modality Space for End-to-end Speech Translation [49.29045524083467]
エンドツーエンドの音声翻訳は、音声を統一されたモデル内でターゲットテキストに変換することを目的としている。
音声とテキストのモダリティの固有の違いは、しばしば効果的なクロスモーダルとクロスリンガルの移動を妨げる。
両モードの表現空間を整列させるために, 対角訓練を用いたソフトアライメント(S-Align)を導入する。
論文 参考訳(メタデータ) (2023-12-18T06:08:51Z) - WSPAlign: Word Alignment Pre-training via Large-Scale Weakly Supervised
Span Prediction [31.96433679860807]
既存の単語アライメント手法の多くは、手動アライメントデータセットやパラレルコーパスに依存している。
我々は正しい、完全に整合した、平行した文の要求を緩和する。
次に、このような大規模弱教師付きデータセットを用いて、スパン予測による単語アライメント事前学習を行う。
論文 参考訳(メタデータ) (2023-06-09T03:11:42Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Using Optimal Transport as Alignment Objective for fine-tuning
Multilingual Contextualized Embeddings [7.026476782041066]
我々は,マルチリンガルな文脈化表現を改善するために,微調整時のアライメント目的として最適輸送(OT)を提案する。
このアプローチでは、微調整の前に単語アライメントペアを必要とせず、教師なしの方法で文脈内の単語アライメントを学習する。
論文 参考訳(メタデータ) (2021-10-06T16:13:45Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - Zero-Shot Cross-Lingual Dependency Parsing through Contextual Embedding
Transformation [7.615096161060399]
クロスリンガル埋め込み空間マッピングは通常、静的ワードレベル埋め込みで研究される。
感覚レベルと辞書のない文脈埋め込みアライメントアプローチを検討する。
組み込み変換によって構築された概念共有空間によるゼロショット依存性解析の実験は、多言語埋め込みを使用して最先端の方法を大幅に上回る。
論文 参考訳(メタデータ) (2021-03-03T06:50:43Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - SimAlign: High Quality Word Alignments without Parallel Training Data
using Static and Contextualized Embeddings [3.8424737607413153]
並列データを必要としない単語アライメント手法を提案する。
鍵となる考え方は、単語アライメントに静的および文脈化された多言語単語埋め込みを活用することである。
埋め込みから生成されるアライメントは,従来の統計手法よりも2つの言語ペアの方が優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-18T23:10:36Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。