論文の概要: MeVer at CheckThat! 2026: Cluster-Aware Hard-Negative Mining for Multilingual Scientific-Source Retrieval
- arxiv url: http://arxiv.org/abs/2605.24236v1
- Date: Fri, 22 May 2026 21:24:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.767043
- Title: MeVer at CheckThat! 2026: Cluster-Aware Hard-Negative Mining for Multilingual Scientific-Source Retrieval
- Title(参考訳): MeVer at CheckThat! 2026:マルチ言語科学ソース検索のためのクラスタ対応ハードネガティブマイニング
- Authors: Juli Bakagianni, Symeon Papadopoulos,
- Abstract要約: 2026 タスク 1 では,多言語科学的ソース検索について提案する。
本稿では,検索した候補プールのセマンティック構造を利用したクラスタ認識型ハードネガティブマイニング手法を提案する。
実験により, 異なるハード負構造が異なる検索行動を引き起こすことが示された。
- 参考スコア(独自算出の注目度): 11.097006771680896
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Identifying the scientific source behind a social media claim requires matching short, informal, and often multilingual claims against large collections of scientific publications, where semantically related papers may act as challenging distractors or false negatives during training. We present our submission to CheckThat! 2026 Task 1 on multilingual scientific-source retrieval, focusing on how hard-negative mining should be adapted to multi-stage retrieval pipelines for scientific-source retrieval. We propose cluster-aware hard-negative mining strategies that exploit the semantic structure of retrieved candidate pools in order to construct more informative training negatives for dense retrieval and reranking. Our experiments show that different hard-negative structures induce different retrieval behaviors. Localized cluster negatives tend to favor precision-oriented retrieval, whereas broader non-gold semantic negatives provide stronger candidate coverage and more consistent reranking performance across languages. We further study multiple LLM-based evidence-selection formulations, including direct classification, pairwise comparison, and listwise reranking prompts, and find that constrained classification prompts provide the most reliable final document selection. The final system combines a dense retriever, a multilingual cross-encoder reranker, and a selective LLM-based disagreement resolver, ranking 6th among 37 submissions in the shared task evaluation. Overall, our results suggest that hard-negative mining should be treated as a stage-aware design problem rather than as a single retrieval optimization strategy.
- Abstract(参考訳): ソーシャルメディアの主張の背後にある科学的根拠を特定するには、短い、非公式で、しばしば多言語的な主張を、大量の科学出版物に対して一致させる必要がある。
私たちはCheckThatに提出します!
2026 科学的資源検索のための多段階探索パイプラインへのハードネガティブマイニングの適応性に着目した多言語科学的資源検索のタスク1。
そこで本研究では,検索対象プールのセマンティック構造を利用したクラスタ認識型ハードネガティブマイニング手法を提案する。
実験により, 異なるハード負構造が異なる検索行動を引き起こすことが示された。
局所的なクラスタ陰性は精度指向の検索を好む傾向にあるが、より広範な非ゴールドセマンティック陰性はより強力な候補カバレッジと言語間の一貫性のある性能を提供する。
さらに、直接分類、ペアワイズ比較、リストワイズ更新プロンプトを含む複数のLCMに基づくエビデンス選択の定式化について検討し、制約付き分類プロンプトが最も信頼性の高い最終文書選択を提供することを示した。
最終システムは、高密度検索器、多言語クロスエンコーダリランカ、選択LDMベースの不一致解決器を組み合わせ、共有タスク評価において37件中6位にランク付けする。
以上の結果から, 高い負のマイニングは, 単一の検索最適化戦略ではなく, ステージアウェアな設計問題として扱うべきであることが示唆された。
関連論文リスト
- Language-Coupled Reinforcement Learning for Multilingual Retrieval-Augmented Generation [73.54930910609328]
多言語検索強化学習フレームワークLcRLを提案する。
LcRLは言語に結合したグループ相対ポリシー最適化をポリシーと報酬モデルに統合する。
我々は,言語結合型グループサンプリングをロールアウトモジュールに導入し,知識バイアスを低減し,報酬モデルにおける補助的反一貫性のペナルティを正規化し,知識衝突を軽減する。
論文 参考訳(メタデータ) (2026-01-21T11:32:32Z) - The Overlooked Role of Graded Relevance Thresholds in Multilingual Dense Retrieval [7.238707143014165]
本研究では,2進ラベルへの変換に使用する関連度スコアとしきい値が高密度検索に与える影響を解析した。
LLMアノテートされた関連スコアを持つ多言語データセットを用いて、単言語、多言語混合、言語横断検索シナリオについて検討する。
論文 参考訳(メタデータ) (2026-01-07T21:14:48Z) - UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning [101.62386137855704]
本稿では,Universal Multimodal Embedding (UniME-V2)モデルを提案する。
提案手法はまず,グローバル検索による潜在的な負のセットを構築する。
次に、MLLMを用いてクエリ候補対のセマンティックアライメントを評価するMLLM-as-a-Judge機構を提案する。
これらのスコアは、ハード・ネガティブ・マイニングの基礎となり、偽陰性の影響を緩和し、多様な高品質なハード・ネガティブの識別を可能にする。
論文 参考訳(メタデータ) (2025-10-15T13:07:00Z) - Investigating Language and Retrieval Bias in Multilingual Previously Fact-Checked Claim Detection [4.6738956348193]
大きな言語モデル(LLM)は言語間ファクトチェックに強力な機能を提供する。
LLMは、しばしば言語バイアスを示し、英語のような高リソース言語で不公平に優れた性能を発揮する。
我々は,情報検索システムが他者よりも特定の情報を好む傾向にある場合,検索バイアスという新しい概念を提示し,検証する。
論文 参考訳(メタデータ) (2025-09-29T17:50:32Z) - Boosting Data Utilization for Multilingual Dense Retrieval [47.16651389111977]
高品質な高負のサンプルと効果的なミニバッチデータを得ることにより,多言語高密度検索におけるデータ利用率を向上させる手法を提案する。
16言語を用いた多言語検索ベンチマークであるMIRACLの実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2025-09-11T13:42:50Z) - Bridging the Training-Inference Gap for Dense Phrase Retrieval [104.4836127502683]
密度の高いレトリバーを構築するには、トレーニングやニューラルネットワークの検証など、一連の標準手順が必要である。
本稿では,高密度検索におけるトレーニングと推論のギャップを減らせる方法について検討する。
コーパス全体の小さな部分集合を用いて高密度レトリバーを効率よく検証する方法を提案する。
論文 参考訳(メタデータ) (2022-10-25T00:53:06Z) - Efficient Entity Candidate Generation for Low-Resource Languages [13.789451365205665]
候補生成はエンティティリンクにおいて重要なモジュールである。
知識ベースを効果的に活用することが証明された複数のNLPタスクにおいて重要な役割を果たす。
本稿では,言語間エンティティリンクの文脈における候補生成問題の詳細な分析を行う。
論文 参考訳(メタデータ) (2022-06-30T09:49:53Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。