論文の概要: ViRanker: A BGE-M3 & Blockwise Parallel Transformer Cross-Encoder for Vietnamese Reranking
- arxiv url: http://arxiv.org/abs/2509.09131v1
- Date: Thu, 11 Sep 2025 04:07:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.22325
- Title: ViRanker: A BGE-M3 & Blockwise Parallel Transformer Cross-Encoder for Vietnamese Reranking
- Title(参考訳): ViRanker:BGE-M3とBlockwiseの並列トランスフォーマークロスエンコーダ
- Authors: Phuong-Nam Dang, Kieu-Linh Nguyen, Thanh-Hieu Pham,
- Abstract要約: ViRankerはベトナム語に合わせたクロスエンコーダのモデルである。
このモデルは8GBの硬化したコーパスで訓練され、強靭性を高めるためにハイブリッドハード負サンプリングで微調整された。
このモデルをHugging Face上で公開することにより,現実世界の検索システムの普及を支援し,促進することを目指している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents ViRanker, a cross-encoder reranking model tailored to the Vietnamese language. Built on the BGE-M3 encoder and enhanced with the Blockwise Parallel Transformer, ViRanker addresses the lack of competitive rerankers for Vietnamese, a low-resource language with complex syntax and diacritics. The model was trained on an 8 GB curated corpus and fine-tuned with hybrid hard-negative sampling to strengthen robustness. Evaluated on the MMARCO-VI benchmark, ViRanker achieves strong early-rank accuracy, surpassing multilingual baselines and competing closely with PhoRanker. By releasing the model openly on Hugging Face, we aim to support reproducibility and encourage wider adoption in real-world retrieval systems. Beyond Vietnamese, this study illustrates how careful architectural adaptation and data curation can advance reranking in other underrepresented languages.
- Abstract(参考訳): 本稿ではベトナム語に合わせたクロスエンコーダモデルのViRankerについて述べる。
BGE-M3エンコーダ上に構築され、Blockwise Parallel Transformerで強化されたViRankerは、複雑な構文とダイアクリティカルな低リソース言語であるベトナムの競合リランカの欠如に対処している。
このモデルは8GBの硬化したコーパスで訓練され、強靭性を高めるためにハイブリッドハード負サンプリングで微調整された。
MMARCO-VIベンチマークで評価されたViRankerは、多言語ベースラインを超え、PhoRankerと密接に競合する、強力なアーリーランクの精度を実現する。
このモデルをHugging Face上で公開することにより、再現性をサポートし、現実世界の検索システムに広く採用することを目指している。
ベトナム以外では、この研究は、アーキテクチャ適応とデータキュレーションが、他の未表現言語においていかに慎重に再ランク付けされるかを示す。
関連論文リスト
- VietMix: A Naturally Occurring Vietnamese-English Code-Mixed Corpus with Iterative Augmentation for Machine Translation [13.047103277038175]
機械翻訳システムは、低リソース言語向けのコード混合入力を処理する際に失敗する。
この課題に対処するために、自然発生のベトナム語のテキストを専門の英訳と組み合わせたコード混合コーパスであるVietMixを、並列コーパスでキュレートする。
このリソースを増大させ、補完的な合成データ生成パイプラインを開発した。
論文 参考訳(メタデータ) (2025-05-30T11:18:10Z) - Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。
実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-20T16:20:30Z) - VNJPTranslate: A comprehensive pipeline for Vietnamese-Japanese translation [0.0]
VNJPTranslateは、Vi-Ja翻訳タスクに体系的に対処するために設計されたパイプラインである。
コーパス分析によって特定される挑戦的なセグメントに対して、Chain-of-specificallyプロンプトを備えた高度なLLMを使用して、ターゲットデータ拡張戦略を特徴とする。
我々は,実用的で高性能な翻訳システムを構築するために,効率的な微調整技術を採用している。
論文 参考訳(メタデータ) (2025-04-01T01:38:25Z) - Vi-Mistral-X: Building a Vietnamese Language Model with Advanced Continual Pre-training [0.0]
vi-mistral-xはベトナム語用に特別に設計された革新的な大規模言語モデルである。
これはMistralアーキテクチャに基づいた、継続事前トレーニングのユニークな方法を利用している。
既存のベトナムのLLMを、テキスト分類、質問応答、テキスト生成など、いくつかの重要な領域で上回っていることが示されている。
論文 参考訳(メタデータ) (2024-03-20T10:14:13Z) - UIT-OpenViIC: A Novel Benchmark for Evaluating Image Captioning in
Vietnamese [2.9649783577150837]
ベトナムにおける新しい画像キャプションデータセット、UIT-OpenViICについて紹介する。
導入されたデータセットには、ベトナムでキャプチャーされ、厳格な規則と監督の下でベトナムによって手動で注釈付けされる複雑なシーンが含まれている。
我々のデータセットは、MS COCOデータセットでよく機能する、最近の最先端(SOTA)トランスフォーマーベースのベースラインに挑戦していることを示す。
論文 参考訳(メタデータ) (2023-05-07T02:48:47Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。