論文の概要: Time to Revist Exact Match
- arxiv url: http://arxiv.org/abs/2509.16720v1
- Date: Sat, 20 Sep 2025 15:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.94299
- Title: Time to Revist Exact Match
- Title(参考訳): エクササイズマッチを再考する時間
- Authors: Auss Abbood, Zaiqiao Meng, Nigel Collier,
- Abstract要約: 正確なマッチング(EM)の欠点を評価するために,時間的質問応答を数値的推定タスクとして用いた。
テスト・オブ・タイム(Test of Time)とTempTabQA(TempTabQA)から抽出したベンチマークであるTempAnswerQAを紹介する。
- 参考スコア(独自算出の注目度): 37.729256284151695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal question answering is an established method for evaluating temporal reasoning in large language models. Expected answers are often numeric (e.g., dates or durations), yet model responses are evaluated like regular text with exact match (EM), unable to distinguish small from large errors. In this investigative work, we frame temporal question answering as a numerical estimation task to assess the shortcomings of EM. We introduce TempAnswerQA, a benchmark distilled from Test of Time and TempTabQA, where all questions require a numerical, temporal answer, allowing us to evaluate models beyond EM. We use the forecasting metrics symmetric mean absolute percentage error (sMAPE) and mean absolute scaled error (MASE). With sMAPE, we find that error size and EM are decoupled. Models with low EM still have low sMAPE (both ~20%), and some models have high sMAPE despite high EM. Scaling errors by the deviation of the ground truth data with MASE reshuffles model rankings compared to EM, revealing gaps in models' understanding of temporal domain knowledge, especially when trained with synthetic data. Lastly, the models' most frequent error is to deviate by only $\pm1$ from the ground truth. sMAPE and MASE, unlike EM, adequately weight these errors. Our findings underscore the need for specialised metrics for temporal QA tasks. Code and data are available on https://github.com/aauss/temporal-answer-qa.
- Abstract(参考訳): 時間的質問応答は、大規模言語モデルにおける時間的推論を評価するための確立された方法である。
期待される答えは、しばしば数値(例えば、日付または期間)であるが、モデル応答は、正確な一致(EM)を持つ通常のテキストのように評価され、大きなエラーと小さなエラーを区別することができない。
本研究では,EMの欠点を評価するために,時間的質問応答を数値推定タスクとして用いた。
テスト・オブ・タイム(Test of Time)とTempTabQA(TempTabQA)から抽出したベンチマークであるTempAnswerQAを導入する。
平均絶対パーセンテージ誤差(sMAPE)と平均絶対スケール誤差(MASE)を用いて予測を行う。
sMAPEではエラーサイズとEMが分離されている。
EMが低いモデルは依然としてsMAPEが低く(どちらも20%)、高いEMにもかかわらずsMAPEが高いモデルもある。
MASEによる基底真理データの偏差による誤差のスケーリングは、EMと比較してモデルランキングをリシャッフルし、特に合成データを用いて訓練された場合、モデルの時間領域知識に対する理解のギャップを明らかにする。
最後に、モデルの最も頻繁なエラーは、真実からわずか$\pm1$を逸脱することである。
sMAPEとMASEはEMとは異なり、これらのエラーを適切に重み付けする。
この結果から,時間的QAタスクの専門的指標の必要性が浮き彫りになった。
コードとデータはhttps://github.com/aauss/temporal-answer-qa.comで公開されている。
関連論文リスト
- Harnessing Temporal Databases for Systematic Evaluation of Factual Time-Sensitive Question-Answering in Large Language Models [38.12930048471948]
TDBenchは、タイムセンシティブな質問-回答ペアを体系的に構築する新しいベンチマークである。
時間精度と呼ばれるきめ細かい評価基準は、モデル説明における時間参照の有効性を評価する。
現代のLarge Language Modelsの実験では、スケーラブルで包括的なTSQA評価を実現する方法が示されています。
論文 参考訳(メタデータ) (2025-08-04T04:27:06Z) - Changing Answer Order Can Decrease MMLU Accuracy [18.774650080306944]
広範に使われている複数選択質問応答データセットMMLUにおける精度測定の堅牢性について検討する。
回答ラベルの内容をシャッフルすると、すべてのモデルがMMLUの精度を低下させるが、全てのモデルが等しく敏感であるわけではない。
論文 参考訳(メタデータ) (2024-06-27T18:21:32Z) - What's under the hood: Investigating Automatic Metrics on Meeting Summarization [7.234196390284036]
会議要約は、オンライン交流の増加を考慮した重要な課題となっている。
現在のデフォルトのメトリクスは、観測可能なエラーをキャプチャするのに苦労しており、相関が弱い。
特定のエラーに正確に反応するのはサブセットのみであり、ほとんどの相関関係は、エラーが要約品質に与える影響を反映していないか、あるいは失敗していることを示している。
論文 参考訳(メタデータ) (2024-04-17T07:15:07Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias [7.28980829208179]
言語モデル(CALM)の包括的評価は、普遍的に関連する2種類の社会デマログラフバイアス、性別、人種の頑健な測定である。
実験により,CALMのバイアススコアは,テンプレートの摂動に対する従来のバイアス測定よりも頑健で,はるかに感度が低いことが示された。
論文 参考訳(メタデータ) (2023-08-24T03:53:55Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Unbiased Math Word Problems Benchmark for Mitigating Solving Bias [72.8677805114825]
現在の問題解決者は、バイアス付きデータセットと不適切なトレーニング戦略によるデータバイアスと学習バイアスからなるバイアスを解決している。
実験により,MWP の解法は,すべての MWP の問題を多種多様な質問をカバーしないバイアス付きトレーニングデータセットにより容易にバイアスを受けられることを確認した。
MWPは複数の等価方程式によって自然に解けるが、現在のデータセットは1つの等価方程式のみを基底真理とする。
論文 参考訳(メタデータ) (2022-05-17T06:07:04Z) - A Dataset for Answering Time-Sensitive Questions [88.95075983560331]
時間とは、我々の物理的世界において重要な次元である。多くの事実が時間に関して進化することができる。
時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要です。
既存のQAデータセットには、時間に敏感な質問がほとんどないため、モデルの時間的推論能力の診断やベンチマークには適さない。
論文 参考訳(メタデータ) (2021-08-13T16:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。