論文の概要: BaziQA-Benchmark: Evaluating Symbolic and Temporally Compositional Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.12889v1
- Date: Fri, 13 Feb 2026 12:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.951283
- Title: BaziQA-Benchmark: Evaluating Symbolic and Temporally Compositional Reasoning in Large Language Models
- Title(参考訳): BaziQA-Benchmark:大規模言語モデルにおけるシンボリックおよびテンポラル構成推論の評価
- Authors: Jiangxi Chen, Qian Liu,
- Abstract要約: BaziQA-Benchmarkは、大きな言語モデルにおける記号的および時間的構成的推論を評価するための標準化されたベンチマークである。
マルチターン設定による現代言語モデルの評価を行い、時間的難易度、推論領域、推論プロトコルにおける性能変動を分析した。
結果は、モデルが常に確率を上回るが、飽和から遠く離れており、時間構成や推論順序に対する感受性が顕著であることを示している。
- 参考スコア(独自算出の注目度): 6.36932184701021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present BaziQA-Benchmark, a standardized benchmark for evaluating symbolic and temporally compositional reasoning in large language models. The benchmark is derived from 200 professionally curated, multiple-choice problems from the Global Fortune-teller Competition (2021--2025), where each instance requires structured inference over a fixed symbolic chart and interacting temporal conditions. Unlike anecdotal or prompt-driven evaluations, BaziQA-Benchmark enables objective scoring and controlled comparison across years, domains, and model families. We evaluate contemporary language models under a multi-turn setting and analyze performance variation across temporal difficulty, reasoning domains, and inference protocols.To further probe reasoning behavior, we introduce a lightweight Structured Reasoning Protocol that constrains inference order without adding domain knowledge. Results show that models consistently outperform chance but remain far from saturation, exhibiting pronounced sensitivity to temporal composition and reasoning order, as well as systematic failures on precise temporal localization and multi-condition symbolic judgments.
- Abstract(参考訳): 本研究では,大言語モデルにおける記号的および時間的構成的推論を標準化したベンチマークであるBaziQA-Benchmarkを提案する。
このベンチマークは、Global Fortune-teller Competition (2021-2025)から200の専門的にキュレートされた多重選択問題から導かれる。
逸話的評価やプロンプト駆動評価とは異なり、BaziQA-Benchmarkは、何年も、ドメイン、モデルファミリーで客観的なスコアリングと制御された比較を可能にする。
マルチターン設定で現代言語モデルを評価し,時間的難易度,推論領域,推論プロトコルにまたがる性能変化を解析し,さらに推論動作を探索するために,ドメイン知識を付加することなく推論順序を制約する軽量な構造化推論プロトコルを導入する。
以上の結果から, モデルが時間的組成や推論順序に対して顕著な感受性を示すとともに, 正確な時間的局所化と多条件的象徴的判断の体系的失敗を示すとともに, 飽和度から遠ざかっていることが示唆された。
関連論文リスト
- Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。
既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。
我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文 参考訳(メタデータ) (2026-02-12T03:10:02Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory [44.886213907135435]
Pseudo-Siamese Network for Item Response Theory (PSN-IRT) を提案する。
PSN-IRTは、アイテムの特性とモデル能力の正確かつ信頼性の高い推定に利用することができる。
論文 参考訳(メタデータ) (2025-05-21T03:24:11Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - DateLogicQA: Benchmarking Temporal Biases in Large Language Models [0.0]
本稿では,DateLogicQAについて紹介する。DateLogicQAは190の質問で,様々な日付形式,時間的文脈,推論型について紹介する。
本稿では,セマンティック・インテリティ・メトリック(Semantic Integrity Metric)を提案し,トークン化の品質を評価し,表現レベルバイアス(Representation-Level Bias)と論理レベルバイアス(Logical-Level Bias)の2つのバイアスを分析する。
論文 参考訳(メタデータ) (2024-12-17T23:25:47Z) - TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。
GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。
以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T00:59:07Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Generic Temporal Reasoning with Differential Analysis and Explanation [61.96034987217583]
時間差分解析でギャップを埋めるTODAYという新しいタスクを導入する。
TODAYは、システムがインクリメンタルな変化の効果を正しく理解できるかどうかを評価する。
共同学習においてTODAYの指導スタイルと説明アノテーションが有効であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:40:03Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。