論文の概要: Pralekha: Cross-Lingual Document Alignment for Indic Languages
- arxiv url: http://arxiv.org/abs/2411.19096v2
- Date: Tue, 29 Jul 2025 08:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 14:59:50.860354
- Title: Pralekha: Cross-Lingual Document Alignment for Indic Languages
- Title(参考訳): Pralekha: インデックス言語のための言語間ドキュメントアライメント
- Authors: Sanjay Suryanarayanan, Haiyue Song, Mohammed Safi Ur Rahman Khan, Anoop Kunchukuttan, Raj Dabre,
- Abstract要約: 文書レベルのアライメント技術を評価するための大規模ベンチマークであるPRALEKHAを紹介する。
また、細粒度文書アライメントのための新しい計量である文書アライメント係数(DAC)を提案する。
- 参考スコア(独自算出の注目度): 19.909934641412942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mining parallel document pairs for document-level machine translation (MT) remains challenging due to the limitations of existing Cross-Lingual Document Alignment (CLDA) techniques. Most approaches rely on metadata such as URLs, which is often unavailable in low-resource language settings, while others represent documents using pooled sentence embeddings, which fail to capture fine-grained alignment cues. Moreover, current sentence embedding models have limited context windows, hindering their ability to represent document-level information effectively. To address these challenges for Indic languages, we introduce PRALEKHA, a large-scale benchmark for evaluating document-level alignment techniques. It contains over 3 million aligned document pairs across 11 Indic languages and English, of which 1.5 million are English--Indic pairs. Furthermore, we propose Document Alignment Coefficient (DAC), a novel metric for fine-grained document alignment. Unlike pooling-based approaches, DAC aligns documents by matching smaller chunks and computes similarity as the ratio of aligned chunks to the average number of chunks in a pair. Intrinsic evaluation shows that DAC achieves substantial improvements over pooling-based baselines, particularly in noisy scenarios. Extrinsic evaluation further demonstrates that document MT models trained on DAC-aligned pairs consistently outperform those using baseline alignment methods. These results highlight DAC's effectiveness for parallel document mining. The PRALEKHA dataset and CLDA evaluation framework will be made publicly available.
- Abstract(参考訳): 文書レベルの機械翻訳(MT)のための並列文書ペアのマイニングは、既存のCLDA(Cross-Lingual Document Alignment)技術に制限があるため、依然として困難である。
たいていのアプローチは、低リソースの言語設定では利用できないURLのようなメタデータに依存している。
さらに、現在の文埋め込みモデルはコンテキストウィンドウが限られており、文書レベルの情報を効果的に表現できない。
Indic言語におけるこれらの課題に対処するために、文書レベルのアライメント技術を評価するための大規模ベンチマークであるPRALEKHAを紹介する。
11のIndic言語と英語にまたがる300万以上のドキュメントペアが含まれており、そのうち15万は英語とIndicのペアである。
さらに,細粒度文書アライメントのための新しい指標である文書アライメント係数(DAC)を提案する。
プールベースのアプローチとは異なり、DACは小さなチャンクをマッチングして文書を整列し、一対の平均チャンク数に対する整列チャンクの比率として類似性を計算する。
内在的評価は,DACがプールベースベースライン,特に雑音のシナリオにおいて,大幅な改善を達成していることを示している。
外部評価により、DAC-アライメントペアでトレーニングされた文書MTモデルは、ベースラインアライメント手法による文書MTモデルよりも一貫して優れていたことが示される。
これらの結果はDACが並列文書マイニングに有効であることを示す。
PRALEKHAデータセットとCLDA評価フレームワークが公開される。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - SentAlign: Accurate and Scalable Sentence Alignment [4.363828136730248]
SentAlignは、非常に大きな並列ドキュメントペアを扱うように設計された、正確な文アライメントツールである。
アライメントアルゴリズムは、数千の文からなるかなり大きな文書における全ての可能なアライメントパスを評価し、数万の文を含む文書のアライメントに分割・コンカレントアプローチを使用する。
論文 参考訳(メタデータ) (2023-11-15T14:15:41Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - A Hierarchical Neural Framework for Classification and its Explanation in Large Unstructured Legal Documents [0.5812284760539713]
我々はこの問題を「注釈付き法律文書」と定義する。
我々はMEScと呼ぶディープラーニングに基づく分類フレームワークを提案する。
また、ORSEと呼ばれる説明抽出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:18:28Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Majority Voting with Bidirectional Pre-translation For Bitext Retrieval [2.580271290008534]
一般的なアプローチは、2つの言語でペアの文書からいわゆる"pseudo-parallel"文をマイニングすることであった。
本稿では,現状の手法による問題を概説し,それらの問題に対する計算経済的解決策を提案し,新しい手法による成功を実証する。
実験に使用されるコードとデータは公開されています。
論文 参考訳(メタデータ) (2021-03-10T22:24:01Z) - A Comparison of Approaches to Document-level Machine Translation [34.2276281264886]
本稿では,文書レベルの現象評価スイートに対して選択したアプローチを体系的に比較する。
我々は,単言語文書レベルでのバック翻訳に基づく単純な手法が,より精巧な代替手段として機能することを見出した。
論文 参考訳(メタデータ) (2021-01-26T19:21:09Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z) - Massively Multilingual Document Alignment with Cross-lingual
Sentence-Mover's Distance [8.395430195053061]
ドキュメントアライメントは、互いに同等のコンテンツや翻訳を持つ2つの異なる言語で文書のペアを特定することを目的としている。
言語間文の埋め込みを利用した教師なしスコアリング機能を開発し、異なる言語の文書間の意味的距離を計算する。
これらのセマンティック距離は、文書アライメントアルゴリズムを誘導して、低言語、中言語、高リソースの様々なペアで言語間ウェブ文書を適切にペアリングする。
論文 参考訳(メタデータ) (2020-01-31T05:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。