論文の概要: ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims
- arxiv url: http://arxiv.org/abs/2509.11492v1
- Date: Mon, 15 Sep 2025 01:03:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.108999
- Title: ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims
- Title(参考訳): ClaimIQ at CheckThat! 2025: 数値的クレーム検証のためのプロンプト言語モデルと微調整言語モデルの比較
- Authors: Anirban Saha Anik, Md Fahimul Kabir Chowdhury, Andrew Wyckoff, Sagnik Ray Choudhury,
- Abstract要約: 本稿では CLEF 2025 CheckThat! Lab のタスク3について述べる。
命令調整型大言語モデル(LLM)によるゼロショットプロンプトと,パラメータ効率の高いLoRAを用いた微調整の2つの補完手法について検討する。
LLaMAをLoRAで微調整することで、英語の検証セット上で高い性能が得られる。
- 参考スコア(独自算出の注目度): 1.6376648444927477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents our system for Task 3 of the CLEF 2025 CheckThat! Lab, which focuses on verifying numerical and temporal claims using retrieved evidence. We explore two complementary approaches: zero-shot prompting with instruction-tuned large language models (LLMs) and supervised fine-tuning using parameter-efficient LoRA. To enhance evidence quality, we investigate several selection strategies, including full-document input and top-k sentence filtering using BM25 and MiniLM. Our best-performing model LLaMA fine-tuned with LoRA achieves strong performance on the English validation set. However, a notable drop in the test set highlights a generalization challenge. These findings underscore the importance of evidence granularity and model adaptation for robust numerical fact verification.
- Abstract(参考訳): 本稿では,CLEF 2025 CheckThatのタスク3について述べる。
Labは、検索された証拠を使って数値的および時間的クレームの検証に重点を置いている。
命令調整型大言語モデル(LLM)によるゼロショットプロンプトと,パラメータ効率の高いLoRAを用いた微調整の2つの補完手法について検討する。
証拠の質を高めるため,BM25 と MiniLM を用いた全文書入力やトップk 文フィルタリングなど,いくつかの選択方法を検討した。
LLaMAをLoRAで微調整することで、英語の検証セット上で高い性能が得られる。
しかし、テストセットの顕著な減少は、一般化の課題を強調している。
これらの知見は、堅牢な数値的事実検証のための証拠の粒度とモデル適応の重要性を裏付けるものである。
関連論文リスト
- When Scale Meets Diversity: Evaluating Language Models on Fine-Grained Multilingual Claim Verification [14.187153195380668]
大規模言語モデルは、多くのNLPタスクにまたがる顕著な能力を持つが、ニュアンス付き分類スキームを用いた多言語クレーム検証の有効性は、まだ検討されていない。
X-Factデータセットでは、7つの異なる精度カテゴリを持つ25言語にまたがる5つの最先端言語モデルを評価する。
驚くべきことに、XLM-R は全試験 LLM よりかなり優れており、57.7% のマクロF1 を 16.9% の最高の LLM 性能と比較すると達成している。
論文 参考訳(メタデータ) (2025-07-28T10:49:04Z) - CEA-LIST at CheckThat! 2025: Evaluating LLMs as Detectors of Bias and Opinion in Text [3.9845507207125967]
本稿では,大言語モデル (LLM) を用いた多言語主観性検出の競争的アプローチを提案する。
LLMは、慎重に設計されたプロンプトと組み合わせることで、微調整されたより小さな言語モデル(SLM)に適合または優れることを示す。
このシステムは,2025年の主観性検出タスクにおいて,複数の言語で上位にランクインした。
論文 参考訳(メタデータ) (2025-07-10T08:35:05Z) - Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs [32.45604456988931]
本研究では,Large Language Models(LLMs)を用いたAFC(Automated Fact-Checking)のベースライン比較を確立する。
また,2007-2024年にPoitiFactから収集された17,856件のクレームに対して,制限されたWeb検索によって得られた証拠を用いてLlama-3モデルの評価を行った。
以上の結果から, LLMは微調整をせずに, 分類精度, 正当化品質において, より小型のLLMより一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-13T02:51:17Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Surprising Efficacy of Fine-Tuned Transformers for Fact-Checking over Larger Language Models [1.985242455423935]
本研究では,ファクトチェックのための微調整トランスフォーマーモデルにより,大規模言語モデルよりも優れた性能が得られることを示す。
数量を含む複雑なクレームと多言語設定におけるファクトチェックのための微調整モデルの有効性を示す。
論文 参考訳(メタデータ) (2024-02-19T14:00:35Z) - Low-Rank Adaptation for Multilingual Summarization: An Empirical Study [60.541168233698194]
私たちはその可能性を調査する。
多言語要約領域におけるローランド適応(LoRA)に着目した効率的なファインチューニング
ハイデータやローデータの設定、言語間転送など、さまざまなデータ可用性シナリオに関する広範な調査を行います。
以上の結果から,LoRAは大量のデータでトレーニングされた場合の完全な微調整と競合し,低データシナリオや言語間転送に優れることがわかった。
論文 参考訳(メタデータ) (2023-11-14T22:32:39Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。