論文の概要: BaziQA-Benchmark: Evaluating Symbolic and Temporally Compositional Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.12889v1
- Date: Fri, 13 Feb 2026 12:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.951283
- Title: BaziQA-Benchmark: Evaluating Symbolic and Temporally Compositional Reasoning in Large Language Models
- Title(参考訳): BaziQA-Benchmark:大規模言語モデルにおけるシンボリックおよびテンポラル構成推論の評価
- Authors: Jiangxi Chen, Qian Liu,
- Abstract要約: BaziQA-Benchmarkは、大きな言語モデルにおける記号的および時間的構成的推論を評価するための標準化されたベンチマークである。
マルチターン設定による現代言語モデルの評価を行い、時間的難易度、推論領域、推論プロトコルにおける性能変動を分析した。
結果は、モデルが常に確率を上回るが、飽和から遠く離れており、時間構成や推論順序に対する感受性が顕著であることを示している。
- 参考スコア(独自算出の注目度): 6.36932184701021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present BaziQA-Benchmark, a standardized benchmark for evaluating symbolic and temporally compositional reasoning in large language models. The benchmark is derived from 200 professionally curated, multiple-choice problems from the Global Fortune-teller Competition (2021--2025), where each instance requires structured inference over a fixed symbolic chart and interacting temporal conditions. Unlike anecdotal or prompt-driven evaluations, BaziQA-Benchmark enables objective scoring and controlled comparison across years, domains, and model families. We evaluate contemporary language models under a multi-turn setting and analyze performance variation across temporal difficulty, reasoning domains, and inference protocols.To further probe reasoning behavior, we introduce a lightweight Structured Reasoning Protocol that constrains inference order without adding domain knowledge. Results show that models consistently outperform chance but remain far from saturation, exhibiting pronounced sensitivity to temporal composition and reasoning order, as well as systematic failures on precise temporal localization and multi-condition symbolic judgments.
- Abstract(参考訳): 本研究では,大言語モデルにおける記号的および時間的構成的推論を標準化したベンチマークであるBaziQA-Benchmarkを提案する。
このベンチマークは、Global Fortune-teller Competition (2021-2025)から200の専門的にキュレートされた多重選択問題から導かれる。
逸話的評価やプロンプト駆動評価とは異なり、BaziQA-Benchmarkは、何年も、ドメイン、モデルファミリーで客観的なスコアリングと制御された比較を可能にする。
マルチターン設定で現代言語モデルを評価し,時間的難易度,推論領域,推論プロトコルにまたがる性能変化を解析し,さらに推論動作を探索するために,ドメイン知識を付加することなく推論順序を制約する軽量な構造化推論プロトコルを導入する。
以上の結果から, モデルが時間的組成や推論順序に対して顕著な感受性を示すとともに, 正確な時間的局所化と多条件的象徴的判断の体系的失敗を示すとともに, 飽和度から遠ざかっていることが示唆された。
関連論文リスト
- Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。
既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。
我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文 参考訳(メタデータ) (2026-02-12T03:10:02Z) - TemporalBench: A Benchmark for Evaluating LLM-Based Agents on Contextual and Event-Informed Time Series Tasks [12.114998959919978]
強い予測性能が真の時間的理解を反映しているか、文脈的・事象駆動的条件下での推論能力を反映しているかは明らかでない。
よりリッチな情報環境下での時間的推論行動を評価するために設計されたマルチドメインベンチマークである TemporalBench を紹介する。
将来のターゲットやコンテキスト情報へのアクセスを制御することで、モデルが時間的パターンを正しく解釈できるかどうかの診断分析が可能になる。
論文 参考訳(メタデータ) (2026-02-05T01:02:19Z) - Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation [15.205635488139043]
大規模言語モデル(LLM)における推論能力の階層構造を特徴付けるフレームワークであるRE-IMAGINEを紹介する。
中間記号表現における問題を変更することにより、RE-IMAGINEは暗記だけでは解けない多くの問題を任意に生成する。
提案手法は, LLM の複数のファミリーを評価するために広く利用されている4つのベンチマークで実証し, モデルに問題ばらつきがある場合の性能低下を観察する。
論文 参考訳(メタデータ) (2025-06-18T13:35:47Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory [44.886213907135435]
Pseudo-Siamese Network for Item Response Theory (PSN-IRT) を提案する。
PSN-IRTは、アイテムの特性とモデル能力の正確かつ信頼性の高い推定に利用することができる。
論文 参考訳(メタデータ) (2025-05-21T03:24:11Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - DateLogicQA: Benchmarking Temporal Biases in Large Language Models [0.0]
本稿では,DateLogicQAについて紹介する。DateLogicQAは190の質問で,様々な日付形式,時間的文脈,推論型について紹介する。
本稿では,セマンティック・インテリティ・メトリック(Semantic Integrity Metric)を提案し,トークン化の品質を評価し,表現レベルバイアス(Representation-Level Bias)と論理レベルバイアス(Logical-Level Bias)の2つのバイアスを分析する。
論文 参考訳(メタデータ) (2024-12-17T23:25:47Z) - TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。
GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。
以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T00:59:07Z) - An Overview Of Temporal Commonsense Reasoning and Acquisition [20.108317515225504]
時間的コモンセンス推論(英: Temporal Commonsense reasoning)とは、フレーズ、行動、出来事の典型的な時間的文脈を理解する能力である。
大規模言語モデルの性能に関する最近の研究は、しばしば推論においてショートカットを行い、単純な言語トラップに陥ることが示唆されている。
論文 参考訳(メタデータ) (2023-07-28T01:30:15Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Generic Temporal Reasoning with Differential Analysis and Explanation [61.96034987217583]
時間差分解析でギャップを埋めるTODAYという新しいタスクを導入する。
TODAYは、システムがインクリメンタルな変化の効果を正しく理解できるかどうかを評価する。
共同学習においてTODAYの指導スタイルと説明アノテーションが有効であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:40:03Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。