論文の概要: When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation
- arxiv url: http://arxiv.org/abs/2510.07238v1
- Date: Wed, 08 Oct 2025 17:06:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.648896
- Title: When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation
- Title(参考訳): ベンチマークの年齢:大規模言語モデルによる時間的相違
- Authors: Xunyi Jiang, Dingyi Chang, Julian McAuley, Xin Xu,
- Abstract要約: 大規模言語モデル(LLM)と現実世界の急速な進化は、広く使われている評価ベンチマークの静的な性質を上回っている。
本稿では,5つの一般的な事実性ベンチマークと8つのLSMを異なる年毎に比較して,この問題の体系的な調査を行う。
- 参考スコア(独自算出の注目度): 22.392925812111354
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The rapid evolution of large language models (LLMs) and the real world has outpaced the static nature of widely used evaluation benchmarks, raising concerns about their reliability for evaluating LLM factuality. While substantial works continue to rely on the popular but old benchmarks, their temporal misalignment with real-world facts and modern LLMs, and their effects on LLM factuality evaluation remain underexplored. Therefore, in this work, we present a systematic investigation of this issue by examining five popular factuality benchmarks and eight LLMs released across different years. An up-to-date fact retrieval pipeline and three metrics are tailored to quantify benchmark aging and its impact on LLM factuality evaluation. Experimental results and analysis illustrate that a considerable portion of samples in the widely used factuality benchmarks are outdated, leading to unreliable assessments of LLM factuality. We hope our work can provide a testbed to assess the reliability of a benchmark for LLM factuality evaluation and inspire more research on the benchmark aging issue. Codes are available in https://github.com/JiangXunyi/BenchAge.
- Abstract(参考訳): 大規模言語モデル(LLM)と現実世界の急速な進化は、広く使用されている評価ベンチマークの静的な性質を上回り、LLMの事実性を評価する上での信頼性への懸念を高めている。
重要な研究は、人気があるが古いベンチマークに依存し続けているが、現実の事実や現代のLLMとの時間的ミスアライメントや、LLMの事実性評価に対する影響は未定のままである。
そこで本研究では,5つの一般的な事実性ベンチマークと8つのLCMを異なる年毎に比較して,この問題の系統的な検討を行う。
最新の事実検索パイプラインと3つのメトリクスは、ベンチマークの老化とLCMの事実性評価への影響を定量化するために調整されている。
実験結果と分析により、広く使用されている事実性ベンチマークのかなりの部分が時代遅れであり、LCMの事実性に対する信頼性の低い評価につながっていることが示された。
LLMの事実性評価のためのベンチマークの信頼性を評価し、ベンチマークの老化問題に関するさらなる研究を促すためのテストベッドを提供できればと思っています。
コードはhttps://github.com/JiangXunyi/BenchAge.comで入手できる。
関連論文リスト
- On Robustness and Reliability of Benchmark-Based Evaluation of LLMs [6.121856629864516]
LLM(Large Language Models)の有効性は通常、MMLU、ARC-C、HellaSwagなどのベンチマークによって評価される。
実世界のアプリケーションは言語的多様性を伴い、同じ質問やクエリの様々なリワードでモデルの有効性を維持する必要がある。
そこで我々は,LLMの頑健さをベンチマーク問題に言い換えて体系的に評価し,ベンチマークに基づく評価がモデル能力の信頼性を評価できるかどうかを検証した。
論文 参考訳(メタデータ) (2025-09-04T08:43:27Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。