論文の概要: TurkEmbed4Retrieval: Turkish Embedding Model for Retrieval Task
- arxiv url: http://arxiv.org/abs/2511.07595v1
- Date: Wed, 12 Nov 2025 01:06:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.396892
- Title: TurkEmbed4Retrieval: Turkish Embedding Model for Retrieval Task
- Title(参考訳): TurkEmbed4Retrieval: 検索タスクのためのトルコの埋め込みモデル
- Authors: Özay Ezerceli, Gizem Gümüşçekiçci, Tuğba Erkoç, Berke Özenç,
- Abstract要約: TurkEmbed4Retrieval は TurkEmbed モデルの検索専用版である。
我々のモデルは、Scifact TRデータセットの重要な検索指標について、トルコのColBERTを19,26%上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce TurkEmbed4Retrieval, a retrieval specialized variant of the TurkEmbed model originally designed for Natural Language Inference (NLI) and Semantic Textual Similarity (STS) tasks. By fine-tuning the base model on the MS MARCO TR dataset using advanced training techniques, including Matryoshka representation learning and a tailored multiple negatives ranking loss, we achieve SOTA performance for Turkish retrieval tasks. Extensive experiments demonstrate that our model outperforms Turkish colBERT by 19,26% on key retrieval metrics for the Scifact TR dataset, thereby establishing a new benchmark for Turkish information retrieval.
- Abstract(参考訳): 本研究では,NLI(Natural Language Inference)とSTS(Semantic Textual similarity)タスク用に設計されたTurboEmbedモデルの検索専用版であるTurboEmbed4Retrievalを紹介する。
MARCO TRデータセットのベースモデルを,Matryoshka表現学習や複数負格ランキング損失の調整を含む高度な訓練手法を用いて微調整することにより,トルコの検索タスクにおけるSOTA性能を実現する。
大規模な実験により,Scifact TRデータセットの主要検索指標において,我々のモデルはトルコのコルベルトよりも19,26%向上し,トルコ情報検索の新たなベンチマークが確立された。
関連論文リスト
- TurkEmbed: Turkish Embedding Model on NLI & STS Tasks [0.0]
TurkEmbedは、既存のモデルを上回るように設計された新しいトルコ語埋め込みモデルである。
多様なデータセットと高度なトレーニング技術の組み合わせを利用しており、その中にはMathryoshka表現学習も含まれる。
現在の最先端モデルであるEmrecanを、All-NLI-TRとSTS-b-TRベンチマークで上回り、1-4%の改善を実現している。
論文 参考訳(メタデータ) (2025-11-11T15:54:52Z) - A Large-Scale Dataset and Citation Intent Classification in Turkish with LLMs [0.0]
まず、トルコ語による引用意図のデータセットを公開し、目的付けのアノテーションツールで作成する。
次に,Large Language Models (LLMs) を用いた標準インコンテキスト学習の性能評価を行い,手動で設計したプロンプトによる一貫性のない結果によってその効果が制限されることを示した。
最終分類には、複数の最適化されたモデルから出力を集約し、安定かつ信頼性の高い予測を保証するために、重ねられた一般化アンサンブルを用いる。
論文 参考訳(メタデータ) (2025-09-26T05:44:04Z) - Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications [0.0]
本稿では,トルコのRAGアプリケーションに特化して設計された幻覚検出モデルの最初のスイートであるTurk-LettuceDetectを紹介する。
これらのモデルは、質問応答、データ・トゥ・テキスト生成、要約タスクを含む17,790のインスタンスを含むRAGTruthベンチマークデータセットの機械翻訳バージョンでトレーニングされた。
実験の結果,ModernBERTをベースとしたモデルでは,F1スコアの0.7266が完全なテストセットで達成され,特に構造化タスクにおいて高い性能が得られた。
論文 参考訳(メタデータ) (2025-09-22T12:14:11Z) - KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [64.1520245849231]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。
ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。
事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文 参考訳(メタデータ) (2025-05-26T08:38:02Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Fine-tuning Transformer-based Encoder for Turkish Language Understanding
Tasks [0.0]
トルコ語のためのTransformerベースのモデルとベースラインベンチマークを提供する。
我々は、トルコのBERTモデル、BERTurkを多くの下流タスクに微調整し、トルコのベンチマークデータセットで評価した。
論文 参考訳(メタデータ) (2024-01-30T19:27:04Z) - RoBERTurk: Adjusting RoBERTa for Turkish [0.0]
BPEトークンを用いたトルコのコーパス上でRoBERTaをプリトレーニングする。
我々のモデルは、POSタスクのBOUNデータセットのBERTurkファミリーモデルよりも優れており、同じタスクのIMSTデータセットの低性能化と、NERタスクのXTREMEデータセットのトルコ分割における競合スコアの達成を実現している。
論文 参考訳(メタデータ) (2024-01-07T15:13:24Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - RoBLEURT Submission for the WMT2021 Metrics Task [72.26898579202076]
本稿では,共有メトリクスタスクであるRoBLEURTについて紹介する。
我々のモデルは10対の英語言語対のうち8対でWMT 2020の人間のアノテーションと最先端の相関に達する。
論文 参考訳(メタデータ) (2022-04-28T08:49:40Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。