論文の概要: The Overlooked Role of Graded Relevance Thresholds in Multilingual Dense Retrieval
- arxiv url: http://arxiv.org/abs/2601.04395v1
- Date: Wed, 07 Jan 2026 21:14:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.921958
- Title: The Overlooked Role of Graded Relevance Thresholds in Multilingual Dense Retrieval
- Title(参考訳): 多言語Dense Retrievalにおけるグレードレバレンス閾値の役割
- Authors: Tomer Wullach, Ori Shapira, Amir DN Cohen,
- Abstract要約: 本研究では,2進ラベルへの変換に使用する関連度スコアとしきい値が高密度検索に与える影響を解析した。
LLMアノテートされた関連スコアを持つ多言語データセットを用いて、単言語、多言語混合、言語横断検索シナリオについて検討する。
- 参考スコア(独自算出の注目度): 7.238707143014165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense retrieval models are typically fine-tuned with contrastive learning objectives that require binary relevance judgments, even though relevance is inherently graded. We analyze how graded relevance scores and the threshold used to convert them into binary labels affect multilingual dense retrieval. Using a multilingual dataset with LLM-annotated relevance scores, we examine monolingual, multilingual mixture, and cross-lingual retrieval scenarios. Our findings show that the optimal threshold varies systematically across languages and tasks, often reflecting differences in resource level. A well-chosen threshold can improve effectiveness, reduce the amount of fine-tuning data required, and mitigate annotation noise, whereas a poorly chosen one can degrade performance. We argue that graded relevance is a valuable but underutilized signal for dense retrieval, and that threshold calibration should be treated as a principled component of the fine-tuning pipeline.
- Abstract(参考訳): ディエンス検索モデルは通常、関係性は本質的に等級化されているにもかかわらず、二項関係判定を必要とする対照的な学習目的で微調整される。
関連度スコアと2進ラベルへの変換に使用される閾値が多言語密集検索に与える影響を解析する。
LLMアノテートされた関連スコアを持つ多言語データセットを用いて、単言語、多言語混合、言語横断検索シナリオについて検討する。
その結果、最適閾値は言語やタスクによって体系的に変化し、しばしばリソースレベルの違いを反映していることがわかった。
well-chosen閾値は、有効性を向上し、必要な微調整データの量を削減し、アノテーションノイズを軽減する。
等級関係性は高密度検索には有用であるが, 未利用の信号であり, しきい値のキャリブレーションは微調整パイプラインの原理的成分として扱うべきである。
関連論文リスト
- What Drives Cross-lingual Ranking? Retrieval Approaches with Multilingual Language Models [0.19116784879310025]
リソース、スクリプト、埋め込みモデルにおける弱い言語間セマンティックアライメントの相違により、言語間情報検索は困難である。
既存のパイプラインは、しばしば翻訳と単言語検索に依存し、計算オーバーヘッドとノイズ、パフォーマンスを追加する。
この研究は、文書翻訳、事前訓練されたエンコーダによる多言語密集検索、単語、フレーズ、クエリー文書レベルのコントラスト学習、および3つのベンチマークデータセットにおけるクロスエンコーダの再ランク付けという、4つの介入タイプを体系的に評価する。
論文 参考訳(メタデータ) (2025-11-24T17:17:40Z) - Conditions for Catastrophic Forgetting in Multilingual Translation [24.10629800866219]
多言語微調整における破滅的忘れを誘発する条件を同定する。
モデルとデータサイズの間の相対的なスケールは、忘れる際の主要な決定要因であることを示す。
また, 言語間アライメントは, 忘れを軽減し, 未確認対象言語への肯定的な移動を促進することも示している。
論文 参考訳(メタデータ) (2025-10-22T12:54:00Z) - Low-Resource English-Tigrinya MT: Leveraging Multilingual Models, Custom Tokenizers, and Clean Evaluation Benchmarks [6.177998679139308]
ニューラルネットワーク翻訳(NMT)の進歩にもかかわらず、Tigrinyaのような低リソース言語はいまだに保存されていない。
本稿では,多言語事前学習モデルを用いた翻訳学習手法について検討し,形態的に豊かな低リソース言語に対する翻訳品質を向上させる。
論文 参考訳(メタデータ) (2025-09-24T15:02:57Z) - Data-Efficient Hate Speech Detection via Cross-Lingual Nearest Neighbor Retrieval with Limited Labeled Data [59.30098850050971]
言語間の変換学習は、ラベル付きデータに制限のあるタスクのパフォーマンスを向上させることができる。
我々は、最寄りの検索を利用して、ターゲット言語における最小ラベル付きデータを増強する。
提案手法を8言語で評価し,対象言語データのみに基づいてトレーニングしたモデルよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-05-20T12:25:33Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Multilingual Few-Shot Learning via Language Model Retrieval [18.465566186549072]
トランスフォーマーベースの言語モデルは、数ショットのインコンテキスト学習において顕著な成功を収めた。
本研究は,意味論的に類似したショットサンプルを検索し,コンテキストとして利用する研究である。
提案手法を,意図検出,質問分類,感情分析,話題分類に関連する5つの自然言語理解データセット上で評価した。
論文 参考訳(メタデータ) (2023-06-19T14:27:21Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。