論文の概要: Pralekha: An Indic Document Alignment Evaluation Benchmark
- arxiv url: http://arxiv.org/abs/2411.19096v1
- Date: Thu, 28 Nov 2024 12:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:54.684139
- Title: Pralekha: An Indic Document Alignment Evaluation Benchmark
- Title(参考訳): Pralekha: ドキュメントアライメント評価ベンチマーク
- Authors: Sanjay Suryanarayanan, Haiyue Song, Mohammed Safi Ur Rahman Khan, Anoop Kunchukuttan, Mitesh M. Khapra, Raj Dabre,
- Abstract要約: 文書レベルのアライメント評価のための大規模ベンチマークであるPralekhaを紹介する。
Pralekhaには200万以上のドキュメントがあり、一致しないペアの1:2の割合で、11のインド語と英語をカバーしている。
文とチャンクレベルのアライメントを用いた文書のアライメントの課題に対処する文書アライメント係数を提案する。
- 参考スコア(独自算出の注目度): 34.05246795948451
- License:
- Abstract: Mining parallel document pairs poses a significant challenge because existing sentence embedding models often have limited context windows, preventing them from effectively capturing document-level information. Another overlooked issue is the lack of concrete evaluation benchmarks comprising high-quality parallel document pairs for assessing document-level mining approaches, particularly for Indic languages. In this study, we introduce Pralekha, a large-scale benchmark for document-level alignment evaluation. Pralekha includes over 2 million documents, with a 1:2 ratio of unaligned to aligned pairs, covering 11 Indic languages and English. Using Pralekha, we evaluate various document-level mining approaches across three dimensions: the embedding models, the granularity levels, and the alignment algorithm. To address the challenge of aligning documents using sentence and chunk-level alignments, we propose a novel scoring method, Document Alignment Coefficient (DAC). DAC demonstrates substantial improvements over baseline pooling approaches, particularly in noisy scenarios, achieving average gains of 20-30% in precision and 15-20% in F1 score. These results highlight DAC's effectiveness in parallel document mining for Indic languages.
- Abstract(参考訳): 既存の文埋め込みモデルではコンテキストウィンドウが限られており、文書レベルの情報を効果的に取得できないため、並列ドキュメントペアのマイニングは大きな課題となる。
もう1つの見落とされがちな問題は、特にIndic言語において、文書レベルのマイニングアプローチを評価するための高品質な並列ドキュメントペアを含む具体的な評価ベンチマークの欠如である。
本研究では,文書レベルのアライメント評価のための大規模ベンチマークであるPralekhaを紹介する。
Pralekhaには200万以上のドキュメントがあり、一致しないペアの1:2の割合で、11のインド語と英語をカバーしている。
Pralekhaを用いて、埋め込みモデル、粒度レベル、アライメントアルゴリズムの3次元にわたる文書レベルのマイニング手法を評価した。
文とチャンクレベルのアライメントを用いた文書のアライメントの課題に対処するため,新しいスコアリング手法である文書アライメント係数(DAC)を提案する。
DACは、特にノイズの多いシナリオにおいて、ベースラインプーリングアプローチよりも大幅に改善され、20-30%の精度で、F1スコアで15-20%の平均ゲインを達成した。
これらの結果は、DACがIndic言語における並列文書マイニングに有効であることを示す。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - SentAlign: Accurate and Scalable Sentence Alignment [4.363828136730248]
SentAlignは、非常に大きな並列ドキュメントペアを扱うように設計された、正確な文アライメントツールである。
アライメントアルゴリズムは、数千の文からなるかなり大きな文書における全ての可能なアライメントパスを評価し、数万の文を含む文書のアライメントに分割・コンカレントアプローチを使用する。
論文 参考訳(メタデータ) (2023-11-15T14:15:41Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - A Hierarchical Neural Framework for Classification and its Explanation in Large Unstructured Legal Documents [0.5812284760539713]
我々はこの問題を「注釈付き法律文書」と定義する。
我々はMEScと呼ぶディープラーニングに基づく分類フレームワークを提案する。
また、ORSEと呼ばれる説明抽出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:18:28Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Majority Voting with Bidirectional Pre-translation For Bitext Retrieval [2.580271290008534]
一般的なアプローチは、2つの言語でペアの文書からいわゆる"pseudo-parallel"文をマイニングすることであった。
本稿では,現状の手法による問題を概説し,それらの問題に対する計算経済的解決策を提案し,新しい手法による成功を実証する。
実験に使用されるコードとデータは公開されています。
論文 参考訳(メタデータ) (2021-03-10T22:24:01Z) - A Comparison of Approaches to Document-level Machine Translation [34.2276281264886]
本稿では,文書レベルの現象評価スイートに対して選択したアプローチを体系的に比較する。
我々は,単言語文書レベルでのバック翻訳に基づく単純な手法が,より精巧な代替手段として機能することを見出した。
論文 参考訳(メタデータ) (2021-01-26T19:21:09Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z) - Massively Multilingual Document Alignment with Cross-lingual
Sentence-Mover's Distance [8.395430195053061]
ドキュメントアライメントは、互いに同等のコンテンツや翻訳を持つ2つの異なる言語で文書のペアを特定することを目的としている。
言語間文の埋め込みを利用した教師なしスコアリング機能を開発し、異なる言語の文書間の意味的距離を計算する。
これらのセマンティック距離は、文書アライメントアルゴリズムを誘導して、低言語、中言語、高リソースの様々なペアで言語間ウェブ文書を適切にペアリングする。
論文 参考訳(メタデータ) (2020-01-31T05:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。