論文の概要: TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval
- arxiv url: http://arxiv.org/abs/2511.16528v1
- Date: Thu, 20 Nov 2025 16:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.72849
- Title: TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval
- Title(参考訳): TurkColBERT:トルコ情報検索のためのDenseとLat-Interactionモデルのベンチマーク
- Authors: Özay Ezerceli, Mahmoud El Hussieni, Selva Taş, Reyhan Bayraktar, Fatma Betül Terzioğlu, Yusuf Çelebi, Yağız Asker,
- Abstract要約: 我々は、トルコ検索のための高密度エンコーダと遅延相互作用モデルを比較した最初のベンチマークであるTurkColBERTを紹介する。
我々の2段階適応パイプラインは、トルコのNLI/STSタスクで英語と多言語エンコーダを微調整し、ColBERTスタイルのレトリバーに変換する。
我々は、科学的、経済的、議論的な領域をカバーする5つのトルコのBEIRデータセットの10モデルを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural information retrieval systems excel in high-resource languages but remain underexplored for morphologically rich, lower-resource languages such as Turkish. Dense bi-encoders currently dominate Turkish IR, yet late-interaction models -- which retain token-level representations for fine-grained matching -- have not been systematically evaluated. We introduce TurkColBERT, the first comprehensive benchmark comparing dense encoders and late-interaction models for Turkish retrieval. Our two-stage adaptation pipeline fine-tunes English and multilingual encoders on Turkish NLI/STS tasks, then converts them into ColBERT-style retrievers using PyLate trained on MS MARCO-TR. We evaluate 10 models across five Turkish BEIR datasets covering scientific, financial, and argumentative domains. Results show strong parameter efficiency: the 1.0M-parameter colbert-hash-nano-tr is 600$\times$ smaller than the 600M turkish-e5-large dense encoder while preserving over 71\% of its average mAP. Late-interaction models that are 3--5$\times$ smaller than dense encoders significantly outperform them; ColmmBERT-base-TR yields up to +13.8\% mAP on domain-specific tasks. For production-readiness, we compare indexing algorithms: MUVERA+Rerank is 3.33$\times$ faster than PLAID and offers +1.7\% relative mAP gain. This enables low-latency retrieval, with ColmmBERT-base-TR achieving 0.54 ms query times under MUVERA. We release all checkpoints, configs, and evaluation scripts. Limitations include reliance on moderately sized datasets ($\leq$50K documents) and translated benchmarks, which may not fully reflect real-world Turkish retrieval conditions; larger-scale MUVERA evaluations remain necessary.
- Abstract(参考訳): ニューラル・インフォメーション・リカバリ・システムは、高リソース言語で優れているが、トルコ語のような形態的に豊かな低リソース言語では未探索のままである。
現在、複雑なバイエンコーダがトルコのIRを支配しているが、細粒度マッチングのためのトークンレベルの表現を保持する遅延相互作用モデルは、体系的に評価されていない。
我々は、トルコ検索のための高密度エンコーダと遅延相互作用モデルを比較した最初の総合ベンチマークであるTurkColBERTを紹介する。
トルコのNLI/STSタスクにおける英語および多言語エンコーダの2段階適応パイプラインを微調整し,MS MARCO-TRで訓練したPyLateを用いてColBERTスタイルのレトリバーに変換する。
我々は、科学的、経済的、議論的な領域をカバーする5つのトルコのBEIRデータセットの10モデルを評価した。
1.0M-parameter colbert-hash-nano-tr is 600$\times$ smaller than the 600M turkish-e5-large dense encoder whileserving over 71\% of its average mAP。
密度エンコーダよりも3〜5$\times$小さいレイト・インタラクション・モデルは、それらの性能を著しく上回り、ColmmBERT-base-TRはドメイン固有のタスクで+13.8\% mAPを得る。
MUVERA+RerankはPLAIDよりも3.33$\times$速く、相対的なmAPゲインを提供する。
これにより低レイテンシの検索が可能となり、ColmmBERT-base-TRはMUVERAの下で0.54msのクエリ時間を達成した。
すべてのチェックポイント、設定、評価スクリプトをリリースします。
制限には、適度なサイズのデータセット($50Kの文書)と、実際のトルコの検索条件を完全に反映していない翻訳ベンチマークへの依存が含まれており、より大規模なMUVERA評価は依然として必要である。
関連論文リスト
- TurkEmbed: Turkish Embedding Model on NLI & STS Tasks [0.0]
TurkEmbedは、既存のモデルを上回るように設計された新しいトルコ語埋め込みモデルである。
多様なデータセットと高度なトレーニング技術の組み合わせを利用しており、その中にはMathryoshka表現学習も含まれる。
現在の最先端モデルであるEmrecanを、All-NLI-TRとSTS-b-TRベンチマークで上回り、1-4%の改善を実現している。
論文 参考訳(メタデータ) (2025-11-11T15:54:52Z) - SindBERT, the Sailor: Charting the Seas of Turkish NLP [0.05570276034354691]
SindBERTはトルコの312GBのテキストでスクラッチから訓練されている。
我々はSindBERTを音声タグ付け、エンティティ認識、攻撃的言語検出、TurBLiMP言語受容性ベンチマークで評価した。
論文 参考訳(メタデータ) (2025-10-24T11:48:49Z) - Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications [0.0]
本稿では,トルコのRAGアプリケーションに特化して設計された幻覚検出モデルの最初のスイートであるTurk-LettuceDetectを紹介する。
これらのモデルは、質問応答、データ・トゥ・テキスト生成、要約タスクを含む17,790のインスタンスを含むRAGTruthベンチマークデータセットの機械翻訳バージョンでトレーニングされた。
実験の結果,ModernBERTをベースとしたモデルでは,F1スコアの0.7266が完全なテストセットで達成され,特に構造化タスクにおいて高い性能が得られた。
論文 参考訳(メタデータ) (2025-09-22T12:14:11Z) - mmBERT: A Modern Multilingual Encoder with Annealed Language Learning [57.58071656545661]
mmBERTは、多言語テキストの3Tトークンで事前訓練されたエンコーダのみの言語モデルである。
データに1700以上の低リソース言語を追加しています。
分類および検索タスクにおける従来のモデルよりも, mmBERTの方が優れていたことを示す。
論文 参考訳(メタデータ) (2025-09-08T17:08:42Z) - MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm [60.14048367611333]
MonkeyOCRはドキュメント解析のためのビジョン言語モデルである。
SRR(Structure-Recognition-Relation)三重項パラダイムを活用することで、最先端の技術の進歩を図っている。
論文 参考訳(メタデータ) (2025-06-05T16:34:57Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。