論文の概要: Duluth at SemEval-2025 Task 7: TF-IDF with Optimized Vector Dimensions for Multilingual Fact-Checked Claim Retrieval
- arxiv url: http://arxiv.org/abs/2505.12616v1
- Date: Mon, 19 May 2025 01:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.347673
- Title: Duluth at SemEval-2025 Task 7: TF-IDF with Optimized Vector Dimensions for Multilingual Fact-Checked Claim Retrieval
- Title(参考訳): SemEval-2025 Task 7: TF-IDFによる多言語 Fact-Checked Claim Retrieval の高速化
- Authors: Shujauddin Syed, Ted Pedersen,
- Abstract要約: 本稿では,SemEval-2025 Task 7 on Multilingual and Crosslingual Fact-Checked Claim Retrievalを提案する。
我々は,ベクトル次元とトークン化戦略を実験するTF-IDFベースの検索システムを実装した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the Duluth approach to the SemEval-2025 Task 7 on Multilingual and Crosslingual Fact-Checked Claim Retrieval. We implemented a TF-IDF-based retrieval system with experimentation on vector dimensions and tokenization strategies. Our best-performing configuration used word-level tokenization with a vocabulary size of 15,000 features, achieving an average success@10 score of 0.78 on the development set and 0.69 on the test set across ten languages. Our system showed stronger performance on higher-resource languages but still lagged significantly behind the top-ranked system, which achieved 0.96 average success@10. Our findings suggest that though advanced neural architectures are increasingly dominant in multilingual retrieval tasks, properly optimized traditional methods like TF-IDF remain competitive baselines, especially in limited compute resource scenarios.
- Abstract(参考訳): 本稿では,SemEval-2025タスク7の多言語および多言語間ファクトチェッククラム検索におけるDuluthアプローチについて述べる。
我々は,ベクトル次元とトークン化戦略を実験するTF-IDFベースの検索システムを実装した。
最も優れた構成では、語彙サイズ15,000の単語レベルのトークン化を使用して、開発セットの平均成功率0.78、テストセット10言語で0.69を達成しました。
我々のシステムでは、高レベルの言語ではパフォーマンスが向上したが、それでもトップランクシステムに大きく遅れており、平均成功率は0.96である@10。
我々の研究は、高度なニューラルネットワークが多言語検索タスクにおいてますます支配的になっていることを示唆しているが、TF-IDFのような従来の手法は、特に限られた計算資源シナリオにおいて、競合するベースラインを維持している。
関連論文リスト
- Word2winners at SemEval-2025 Task 7: Multilingual and Crosslingual Fact-Checked Claim Retrieval [0.7874708385247352]
本稿では,SemEval 2025 Task 7:以前のFact-Checked Claim Retrievalについて述べる。
このタスクは、広範囲な多言語MultiClaimデータセットから与えられた入力クレームに関する関連する事実チェックを取得する必要がある。
最適なモデルでは,クロスリンガルデータでは85%,モノリンガルデータでは92%の精度が得られた。
論文 参考訳(メタデータ) (2025-03-12T02:59:41Z) - Enhancing Multilingual LLM Pretraining with Model-Based Data Selection [33.68104398807581]
本稿では,多言語データセットを対象としたモデルベースフィルタリングフレームワークを提案する。
当社のアプローチは透明性、単純さ、効率性を重視しています。
フレームワークを20言語に拡張し、洗練された事前トレーニングデータセットをリリースします。
論文 参考訳(メタデータ) (2025-02-14T18:42:07Z) - Multilingual De-Duplication Strategies: Applying scalable similarity search with monolingual & multilingual embedding models [0.0]
本稿では,高度NLPツールを用いた多言語テキストデータの重複解消について述べる。
我々は、mpnetと多言語埋め込みモデル(distiluse)を併用し、英語への翻訳を含む2段階の手法の比較を行った。
論文 参考訳(メタデータ) (2024-06-19T16:48:14Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z) - FiSSA at SemEval-2020 Task 9: Fine-tuned For Feelings [2.362412515574206]
本稿では,スペイン語と英語の混在するソーシャルメディアデータを用いた感情分類手法を提案する。
単言語モデルと多言語モデルの両方を標準微調整法を用いて検討する。
2段階の微調整により、ベースモデルよりも感情分類性能が向上するが、大規模多言語XLM-RoBERTaモデルではF1スコアが最適である。
論文 参考訳(メタデータ) (2020-07-24T14:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。