論文の概要: UWBa at SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrieval
- arxiv url: http://arxiv.org/abs/2508.09517v1
- Date: Wed, 13 Aug 2025 05:55:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.774259
- Title: UWBa at SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrieval
- Title(参考訳): UWBa at SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrieval
- Authors: Ladislav Lenc, Daniel Cífka, Jiří Martínek, Jakub Šmíd, Pavel Král,
- Abstract要約: 本稿では,ファクトチェックされたクレーム検索のためのゼロショットシステムを提案する。
我々は、テキスト埋め込みを得るために、最先端の大規模言語モデルをいくつか使用した。
モノリンガルでは7位, クロスリンガルでは9位であった。
- 参考スコア(独自算出の注目度): 1.4680035572775534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a zero-shot system for fact-checked claim retrieval. We employed several state-of-the-art large language models to obtain text embeddings. The models were then combined to obtain the best possible result. Our approach achieved 7th place in monolingual and 9th in cross-lingual subtasks. We used only English translations as an input to the text embedding models since multilingual models did not achieve satisfactory results. We identified the most relevant claims for each post by leveraging the embeddings and measuring cosine similarity. Overall, the best results were obtained by the NVIDIA NV-Embed-v2 model. For some languages, we benefited from model combinations (NV-Embed & GPT or Mistral).
- Abstract(参考訳): 本稿では,ファクトチェックされたクレーム検索のためのゼロショットシステムを提案する。
我々は、テキスト埋め込みを得るために、最先端の大規模言語モデルをいくつか使用した。
モデルが組み合わされ、最高の結果が得られた。
モノリンガルでは7位, クロスリンガルでは9位であった。
多言語モデルでは満足な結果が得られなかったため、テキスト埋め込みモデルの入力として英語翻訳のみを使用しました。
埋め込みを活用し,コサイン類似度を測定することで,各投稿の最も関連性の高いクレームを特定した。
結果はNVIDIA NV-Embed-v2モデルで得られた。
いくつかの言語では、モデルの組み合わせ(NV-Embed & GPT、Mistral)の恩恵を受けました。
関連論文リスト
- Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - MTEB-French: Resources for French Sentence Embedding Evaluation and Analysis [1.5761916307614148]
本稿では,フランス語の文埋め込みに関する最初のベンチマークを提案する。
51個の埋め込みモデルを大規模に比較した。
すべてのタスクにおいてモデルが最良でない場合でも、文類似性に基づいて事前訓練された大規模多言語モデルは非常によく機能することがわかった。
論文 参考訳(メタデータ) (2024-05-30T20:34:37Z) - OpenMSD: Towards Multilingual Scientific Documents Similarity
Measurement [11.602151258188862]
本研究は,多言語科学的文書類似度測定モデルの開発と評価である。
我々は,103言語で74万の論文と778の引用ペアを持つ,最初の多言語科学文書データセットOpen- Access Multilingual Scientific Documents (OpenMSD)を提案する。
論文 参考訳(メタデータ) (2023-09-19T11:38:39Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Mono vs Multilingual Transformer-based Models: a Comparison across
Several Language Tasks [1.2691047660244335]
BERT (Bidirectional Representations from Transformers) と ALBERT (A Lite BERT) は、言語モデルの事前学習方法である。
ポルトガルでトレーニングされたBERTとAlbertモデルを利用可能にしています。
論文 参考訳(メタデータ) (2020-07-19T19:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。