Fugu-MT 論文翻訳(概要): DS@GT at CheckThat! 2025: Evaluating Context and Tokenization Strategies for Numerical Fact Verification

論文の概要: DS@GT at CheckThat! 2025: Evaluating Context and Tokenization Strategies for Numerical Fact Verification

arxiv url: http://arxiv.org/abs/2507.06195v1
Date: Tue, 08 Jul 2025 17:22:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-09 16:34:38.366613
Title: DS@GT at CheckThat! 2025: Evaluating Context and Tokenization Strategies for Numerical Fact Verification
Title（参考訳）: DS@GT at CheckThat!
Authors: Maximilian Heil, Aleksandar Pramov,
Abstract要約: 数値的クレーム、量、比較、時間的参照を含むステートメントは、自動化された事実チェックシステムに固有の課題をもたらす。我々は,QuanTempデータセットを用いて,これらのクレームの精度予測のためのモデリング戦略を評価し,エビデンス検索パイプラインを構築した。当社のベストパフォーマンスシステムは,競争力のあるマクロ平均F1スコア0.57を達成し,2025年のCheckThatのタスク3におけるトップ4のサブミッションに私たちを配置する。
参考スコア（独自算出の注目度）: 49.1574468325115
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Numerical claims, statements involving quantities, comparisons, and temporal references, pose unique challenges for automated fact-checking systems. In this study, we evaluate modeling strategies for veracity prediction of such claims using the QuanTemp dataset and building our own evidence retrieval pipeline. We investigate three key factors: (1) the impact of more evidences with longer input context windows using ModernBERT, (2) the effect of right-to-left (R2L) tokenization, and (3) their combined influence on classification performance. Contrary to prior findings in arithmetic reasoning tasks, R2L tokenization does not boost natural language inference (NLI) of numerical tasks. A longer context window does also not enhance veracity performance either, highlighting evidence quality as the dominant bottleneck. Our best-performing system achieves competitive macro-average F1 score of 0.57 and places us among the Top-4 submissions in Task 3 of CheckThat! 2025. Our code is available at https://github.com/dsgt-arc/checkthat-2025-numerical.
Abstract（参考訳）: 数値的クレーム、量、比較、時間的参照を含むステートメントは、自動化されたファクトチェックシステムに固有の課題を提起する。本研究では,QuanTempデータセットを用いて,そのようなクレームの正確性予測のためのモデル戦略を評価し,エビデンス検索パイプラインを構築した。筆者らは,(1) より長い入力コンテキストウィンドウによるエビデンスの影響,(2) 右から左へのトークン化(R2L)の影響,(3) それらの組み合わせによる分類性能への影響について検討した。算術的推論タスクにおける先行的な発見とは対照的に、R2Lトークン化は数値的なタスクの自然言語推論(NLI)を促進するものではない。より長いコンテキストウインドウでは、信頼性のパフォーマンスも向上せず、主要なボトルネックとしてエビデンスの品質を強調します。私たちのベストパフォーマンスシステムは、競争力のあるマクロ平均F1スコア0.57を達成し、CheckThatのタスク3におけるトップ4のサブミッションに私たちを配置します! 2025年。私たちのコードはhttps://github.com/dsgt-arc/checkthat-2025-numerical.comで利用可能です。

関連論文リスト

Which Data Attributes Stimulate Math and Code Reasoning? An Investigation via Influence Functions [8.540135660509058]
大規模言語モデル(LLM)は数学やコーディングにおいて顕著な推論能力を示している。影響関数を利用して、LLMの推論能力を数学やコーディングに当てはめ、個々のトレーニング例、シーケンス、トークンに当てはめます。高い微分率の数学の例は、算術とコード推論の両方を改善するが、低微分率のコードタスクは、コードの推論に最も効果的に寄与する。
論文参考訳（メタデータ） (2025-05-26T13:15:26Z)
Ranking Free RAG: Replacing Re-ranking with Selection in RAG for Sensitive Domains [13.58151841630302]
本稿では,RAGにおける再ランク付けを合理的な選択手法で置き換える新しい方法であるMETEORAを提案する。 METEORAは、最先端の再評価手法よりも約50%少ないチャンクを使用しながら、生成精度を33.34%向上させる。敵対的な設定では、METEORAはF1スコアを0.10から0.44に大幅に改善する。
論文参考訳（メタデータ） (2025-05-21T20:57:16Z)
Improving the fact-checking performance of language models by relying on their entailment ability [2.4588375162098877]
ファクトチェック性能を改善するための簡易かつ効果的な戦略を提案する。この戦略は、ファクトチェックのパフォーマンスを改善するために言語モデルの詳細な能力に依存する。結果を再現するために、コードリポジトリを共有しました。
論文参考訳（メタデータ） (2025-05-21T03:15:06Z)
START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2025-03-06T17:11:51Z)
Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文参考訳（メタデータ） (2025-01-08T18:31:16Z)
Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文参考訳（メタデータ） (2024-02-27T16:15:03Z)
Can We Verify Step by Step for Incorrect Answer Detection? [22.984011562264147]
本稿では,様々な推論タスクにおける推論連鎖と性能の関係を調査するためのベンチマークR2PEを紹介する。本ベンチマークは,LLMの最終出力の誤りを推論ステップに基づいて測定することを目的としている。本稿では,回答チェックベースラインを大きなマージンで上回るPDS(Process Discernibility score)フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-16T09:29:50Z)
Chain of Evidences and Evidence to Generate: Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
チェイン・オブ・エビデンス(CoE)とエビデンス・トゥ・ジェネレーション(E2G)は2つのユニークな戦略に基づいて構築されている。根拠のない推論の主張の代わりに、我々の革新的なアプローチは「意思決定の証拠」の力を利用する。我々のフレームワークは、様々な知識集約的推論および生成タスクにおいて、常に顕著な結果を達成する。
論文参考訳（メタデータ） (2024-01-11T09:49:15Z)
LINC: A Neurosymbolic Approach for Logical Reasoning by Combining Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文参考訳（メタデータ） (2023-10-23T17:58:40Z)
PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文参考訳（メタデータ） (2020-10-06T15:47:53Z)
Current Limitations of Language Models: What You Need is Retrieval [0.0]
我々は、言語モデルの性能計算トレードオフを改善するために、現在のアプローチのいくつかを分類し、再検討する。我々は、(5)はこれらの制限の多くを解決し、(a)監督の量を削減し、(b)トレーニングデータセット全体と現在のサンプル全体のコンテキストを効率的に拡張できると主張している。
論文参考訳（メタデータ） (2020-09-15T04:04:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。