Fugu-MT 論文翻訳(概要): Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties

論文の概要: Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties

arxiv url: http://arxiv.org/abs/2502.16922v1
Date: Mon, 24 Feb 2025 07:27:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.457139
Title: Benchmarking Temporal Reasoning and Alignment Across Chinese Dynasties
Title（参考訳）: 中国の諸王朝における時間的推論とアライメントのベンチマーク
Authors: Zhenglin Wang, Jialong Wu, Pengfei LI, Yong Jiang, Deyu Zhou,
Abstract要約: 時間的推論に基づく大規模言語モデル評価のためのベンチマークである中国語時間推論(CTM)を紹介する。 CTMは、相互関係、ペアワイズ時間的アライメント、文脈化と文化的な推論を強調している。
参考スコア（独自算出の注目度）: 38.87423278027958
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Temporal reasoning is fundamental to human cognition and is crucial for various real-world applications. While recent advances in Large Language Models have demonstrated promising capabilities in temporal reasoning, existing benchmarks primarily rely on rule-based construction, lack contextual depth, and involve a limited range of temporal entities. To address these limitations, we introduce Chinese Time Reasoning (CTM), a benchmark designed to evaluate LLMs on temporal reasoning within the extensive scope of Chinese dynastic chronology. CTM emphasizes cross-entity relationships, pairwise temporal alignment, and contextualized and culturally-grounded reasoning, providing a comprehensive evaluation. Extensive experimental results reveal the challenges posed by CTM and highlight potential avenues for improvement.
Abstract（参考訳）: 時間的推論は人間の認知の基本であり、様々な現実世界の応用に不可欠である。大規模言語モデルの最近の進歩は、時間的推論において有望な能力を示しているが、既存のベンチマークは主にルールベースの構成に依存しており、文脈的な深さが欠如しており、時間的実体が限られている。これらの制約に対処するために,中国王朝年代学の範囲内での時間的推論におけるLLMの評価を目的としたベンチマークであるCTM(China Time Reasoning)を導入する。 CTMは、相互関係、ペアワイズ時間的アライメント、文脈的、文化的な推論を強調し、包括的な評価を提供する。広範囲にわたる実験結果から,CTMがもたらす課題が明らかとなり,改善への道のりが明らかにされた。

関連論文リスト

Learning to Reason Over Time: Timeline Self-Reflection for Improved Temporal Reasoning in Language Models [21.579319926212296]
大規模言語モデル(LLM)は、一貫性のあるテキストを生成し、コンテキストを理解し、推論タスクを実行するための強力なツールとして登場した。彼らは時間的推論に苦しむが、それはイベントシーケンシングや時間的関係、時間的関係などの時間的関連情報を処理する必要がある。我々は,タイムライン構築と反復的自己回帰を組み合わせた多段階プロセスを通じて,LLMの時間的推論能力を高める新しいフレームワークであるTISERを紹介する。
論文参考訳（メタデータ） (2025-04-07T16:51:45Z)
DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [86.93099925711388]
長い文脈内での物語的推論に特化したデータセットである textbfDetectiveQA を提案する。 100万以上のトークンを平均化する探偵小説を活用して、中国語と英語の両方で1200人の注釈付き質問を含むデータセットを作成します。
論文参考訳（メタデータ） (2024-09-04T06:28:22Z)
Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。 CoTempQAは4つの時間的シナリオを含むベンチマークである。実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文参考訳（メタデータ） (2024-06-13T12:56:21Z)
FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。 FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文参考訳（メタデータ） (2024-03-04T17:57:18Z)
Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文参考訳（メタデータ） (2024-02-01T15:18:33Z)
TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models [29.656403397725395]
階層的時間的推論ベンチマークであるTimeBenchを提案する。 TimeBenchは、大規模な言語モデルの時間的推論能力を調べるための徹底的な評価を提供する。実験結果から, 最先端のLDMと人間の間には, 顕著な性能差があることが示唆された。
論文参考訳（メタデータ） (2023-11-29T14:30:16Z)
Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文参考訳（メタデータ） (2023-11-16T11:49:29Z)
DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文参考訳（メタデータ） (2023-10-28T10:05:51Z)
Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis [70.78170766633039]
我々は、MTS予測提案を確実かつ公平に評価する手段の必要性に対処する。 BasicTS+は、MTS予測ソリューションの公平で包括的で再現可能な比較を可能にするために設計されたベンチマークである。リッチデータセットとともにBasicTS+を適用し,45 MTS以上の予測ソリューションの性能を評価する。
論文参考訳（メタデータ） (2023-10-09T19:52:22Z)
TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。 GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文参考訳（メタデータ） (2023-10-02T00:59:07Z)
Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文参考訳（メタデータ） (2023-05-24T10:57:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。