Fugu-MT 論文翻訳(概要): ChaosBench-Logic v2: Evaluating LLM Logical Reasoning over Dynamical Systems at Scale

論文の概要: ChaosBench-Logic v2: Evaluating LLM Logical Reasoning over Dynamical Systems at Scale

arxiv url: http://arxiv.org/abs/2605.24305v1
Date: Sat, 23 May 2026 00:34:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:17.861416
Title: ChaosBench-Logic v2: Evaluating LLM Logical Reasoning over Dynamical Systems at Scale
Title（参考訳）: ChaosBench-Logic v2: スケールでの動的システムに対するLLM論理推論の評価
Authors: Noel Thomas,
Abstract要約: 我々は165の力学系に対する40,886の探索ベンチマークであるChaosBench-Logic v2を提案する。我々は、フロンティアモデルでさえ、政権移行推論がほぼランダムに残っていることを発見した。ファミリーごとの分解は、プロプライエタリモデルの利点がクロス指標と一貫性タスクに集中していることを示しています。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Standard accuracy on binary reasoning benchmarks hides critical failure modes: prior collapse, inconsistency under paraphrase, and inability to reason about parameter-dependent dynamics. We present ChaosBench-Logic v2, a 40,886-question benchmark over 165 dynamical systems with 27 FOL predicates and 78 axiom edges, together with CARE (Calibration- and Adversarial-Robust Evaluation), a protocol that surfaces these pathologies. Evaluating 14 models, we find that regime-transition reasoning remains near random (MCC = 0.05) even for frontier models, whereas FOL deduction with given premises reaches MCC = 0.52. Per-family decomposition shows that the proprietary-model advantage concentrates on cross-indicator (+0.40) and consistency tasks, while open-source Qwen 2.5-32B dominates indicator diagnostics (0.91 vs. 0.45). Two models exhibit negative MCC on bifurcation questions, confirmed as systematic anti-correlation via confusion-matrix analysis.
Abstract（参考訳）: バイナリ推論ベンチマークの標準的な精度は、事前崩壊、パラフレーズの下での不整合、パラメータ依存のダイナミクスを推論できないといった、重要な障害モードを隠蔽する。本稿では,これらの病態を解析するプロトコルであるCARE(Calibration- and Adversarial-Robust Evaluation)とともに,27のFOL述語と78の公理エッジを持つ165の力学系に対する40,886の探索ベンチマークであるChaosBench-Logic v2を提案する。 14モデルのモデルを評価すると、フロンティアモデルにおいても政権移行推論はランダムに近い(MCC = 0.05)が、与えられた前提によるFOL推論はMCC = 0.52に達する。一方、Qwen 2.5-32Bはインジケータ診断(0.91対0.45)を支配している。 2つのモデルが分岐質問に対して負のMCCを示し、混乱行列解析による系統的反相関が確認された。

関連論文リスト

Seirênes: Adversarial Self-Play with Evolving Distractions for LLM Reasoning [56.48520300004217]
本稿では、文脈干渉を内部の訓練信号に変換するセルフプレイのRLフレームワークであるSeyrnesを紹介する。単一のモデルでは、可視的かつ気を散らすようなコンテキストの構築と、それ自身で盲点を露呈するように訓練されている。これらの競合する目標を互いに衝突させることで、Sailnes氏は、表面的なパターンマッチングを超えてモデルを補完する。
論文参考訳（メタデータ） (2026-05-12T06:58:35Z)
How Independent are Large Language Models? A Statistical Framework for Auditing Behavioral Entanglement and Reweighting Verifier Ensembles [46.63622714488747]
共有事前学習データ、蒸留、アライメントパイプラインは、隠れた振る舞い依存、潜伏絡みを誘導することができる。実際には、これは相関した推論パターンと同期された障害として現れます。ブラックボックス言語モデル間の行動絡みを監査するための統計的枠組みを開発する。
論文参考訳（メタデータ） (2026-04-08T23:32:06Z)
Robust Reasoning Benchmark [2.622879924644665]
LLM推論の堅牢性を評価するため,14の手法からなる摂動パイプラインを提案する。このパイプラインをAIME 2024データセットに適用し、その結果のベンチマークで8つの最先端モデルを評価します。その結果, 7B から 120B までの開度モデルと Claude Opus 4.6 がその後の問題に対して精度劣化を示した。
論文参考訳（メタデータ） (2026-03-26T22:19:33Z)
A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces [3.9313804276175506]
脳小血管疾患(CSVD)マーカー,特にEPVSとlacunaeは,医用画像解析においてユニークな課題である。本稿では,Zero-Gated CrossTask Attention が高密度EPVSコンテキストを利用してスパースラグーン検出を誘導する形態分離フレームワークを提案する。
論文参考訳（メタデータ） (2026-03-04T16:30:46Z)
Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models [15.849480549367684]
本稿では,DAG生成タスクとして脆弱性推論をモデル化する新しいフレームワークであるDAGVulを提案する。さらにReinforcement Learning with Verifiable Rewards (RLVR)を導入することで、モデル推論トレースをプログラム固有の論理と整合させる。我々のフレームワークは、すべてのベースラインに対して平均18.9%の推論F1スコアを改善します。
論文参考訳（メタデータ） (2026-02-06T13:19:45Z)
Pushing the Boundaries of Natural Reasoning: Interleaved Bonus from Formal-Logic Verification [49.506412445511934]
大きな言語モデル(LLM)は目覚ましい能力を示すが、その次は論理的不整合と報奨ハックを生み出す。本稿では,自然言語生成プロセスと形式的記号的検証を動的にインターリーブする形式論理検証誘導フレームワークを提案する。我々はこのフレームワークを,形式論理検証誘導制御による微調整とポリシー最適化の相乗効果を生かした,新しい2段階のトレーニングパイプラインを通じて運用する。
論文参考訳（メタデータ） (2026-01-30T07:01:25Z)
ReLE: A Scalable System and Structured Benchmark for Diagnosing Capability Anisotropy in Chinese LLMs [37.23311145049677]
本稿では,機能異方性(Capability Anisotropy)を診断するためのスケーラブルなシステムであるReLEを提案する。我々は,207,843サンプルからなる領域$times$ Capability SymbolicMatrixの304モデルを評価した。
論文参考訳（メタデータ） (2026-01-24T09:57:59Z)
Prediction and Causality of functional MRI and synthetic signal using a Zero-Shot Time-Series Foundation Model [46.186152268413025]
ヒトのfMRIで測定した脳活動から方向的相互作用を推定するための古典的手法に対する基礎モデルを評価する。ゼロショットと微調整の両方で基礎モデルの予測能力を検証し,モデルからのグランガー様推定と標準グランガー因果度を比較して因果性を評価する。
論文参考訳（メタデータ） (2025-09-15T22:43:23Z)
Organ-Agents: Virtual Human Physiology Simulator via LLMs [66.40796430669158]
オルガン-エージェント(Organ-Agents)は、LDM駆動のエージェントを介して人間の生理学をシミュレートする多エージェントフレームワークである。症例は7,134例,コントロール7,895例で,9系統および125変数にわたる高分解能トラジェクトリを作成した。臓器抗原は4,509人の保留患者に対して高いシミュレーション精度を達成し, システムごとのMSE0.16とSOFA系重症度層間の堅牢性を示した。
論文参考訳（メタデータ） (2025-08-20T01:58:45Z)
CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。 CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文参考訳（メタデータ） (2024-11-10T02:40:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。