論文の概要: DATETIME: A new benchmark to measure LLM translation and reasoning capabilities
- arxiv url: http://arxiv.org/abs/2504.16155v1
- Date: Tue, 22 Apr 2025 17:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.878682
- Title: DATETIME: A new benchmark to measure LLM translation and reasoning capabilities
- Title(参考訳): DATETIME: LLM翻訳と推論機能を測定する新しいベンチマーク
- Authors: Edward Gaere, Florian Wangenheim,
- Abstract要約: 本稿では,日時における大規模言語モデル(LLM)の翻訳と推論能力を評価するために設計された,新しい高品質なベンチマークであるDATETIMEを紹介する。
日時は直感的で、人間が処理するのは簡単ですが、LLMには大きな課題があります。
実験の結果,現状のモデルでは,日時における推論に関わる作業が困難であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces DATETIME, a new high-quality benchmark designed to evaluate the translation and reasoning abilities of a Large Language Model (LLM) on datetimes. A datetime is simply a date and a time, for example '11th.february.2023 ,1:12:31'. Datetimes are an interesting domain because they are intuitive and straightforward for humans to process but present significant challenges for LLMs. At the time of writing, no publicly available benchmark exists for systematically evaluating LLMs on datetime processing. Our experiments show that state-of-the-art models exhibit significant difficulty with tasks involving reasoning on datetimes, and that General Artificial Intelligence is still a distant aspiration. We hypothesize that working with datetimes necessitates translation and/or computation capabilities, and the tasks of the benchmark are organized accordingly. Significant dispersion in performance across models is observed with surprisingly poor performance even on apparently trivial tasks. Whilst frontier models such as ChatGPT, Claude and Llama3.1 have evidently been built and trained with datetime reasoning abilities, significant improvement is required for the open-source models.
- Abstract(参考訳): 本稿では,日時における大規模言語モデル(LLM)の翻訳と推論能力を評価するために設計された,新しい高品質なベンチマークであるDATETIMEを紹介する。
日付は単に日付と時刻であり、例えば'11th.february.2023 ,1:12:31' である。
日時は直感的で、人間が処理できるが、LLMにとって重要な課題を示すため、興味深い分野である。
執筆時点では、日時処理でLLMを体系的に評価するベンチマークは公開されていない。
我々の実験は、現在最先端のモデルでは、日付の推論に関わるタスクがかなり困難であることを示し、General Artificial Intelligenceはいまだに遠い願望であることを示している。
我々は,日時処理が翻訳や計算能力を必要とすると仮定し,それに従ってベンチマークのタスクを整理する。
モデル間のパフォーマンスの顕著な分散は、明らかに自明なタスクでも驚くほど低いパフォーマンスで観察される。
ChatGPT、Claude、Llama3.1のようなフロンティアモデルは明らかに日時推論能力で構築、訓練されているが、オープンソースモデルには大幅な改善が必要である。
関連論文リスト
- Learning to Reason Over Time: Timeline Self-Reflection for Improved Temporal Reasoning in Language Models [21.579319926212296]
大規模言語モデル(LLM)は、一貫性のあるテキストを生成し、コンテキストを理解し、推論タスクを実行するための強力なツールとして登場した。
彼らは時間的推論に苦しむが、それはイベントシーケンシングや時間的関係、時間的関係などの時間的関連情報を処理する必要がある。
我々は,タイムライン構築と反復的自己回帰を組み合わせた多段階プロセスを通じて,LLMの時間的推論能力を高める新しいフレームワークであるTISERを紹介する。
論文 参考訳(メタデータ) (2025-04-07T16:51:45Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events [0.20132569095596248]
我々はChronoSenseについて紹介する。ChronoSenseは大規模言語モデルの時間的理解を評価するための新しいベンチマークである。
このベンチマークを用いて7つのLLMの性能評価を行い, モデルがアレン関係, 対称関係であっても, 全く異なる扱いをすることを示した。
全体として、モデルの性能の低さは、LLMにおける時間的理解の改善の必要性を強調している。
論文 参考訳(メタデータ) (2025-01-06T14:27:41Z) - DateLogicQA: Benchmarking Temporal Biases in Large Language Models [0.0]
本稿では,DateLogicQAについて紹介する。DateLogicQAは190の質問で,様々な日付形式,時間的文脈,推論型について紹介する。
本稿では,セマンティック・インテリティ・メトリック(Semantic Integrity Metric)を提案し,トークン化の品質を評価し,表現レベルバイアス(Representation-Level Bias)と論理レベルバイアス(Logical-Level Bias)の2つのバイアスを分析する。
論文 参考訳(メタデータ) (2024-12-17T23:25:47Z) - Are Large Language Models Useful for Time Series Data Analysis? [3.44393516559102]
時系列データは、医療、エネルギー、金融といった様々な分野において重要な役割を果たす。
本研究では,大規模言語モデル(LLM)が時系列データ解析に有効かどうかを検討する。
論文 参考訳(メタデータ) (2024-12-16T02:47:44Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。
GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。
以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T00:59:07Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。