論文の概要: CausalT5K: Diagnosing and Informing Refusal for Trustworthy Causal Reasoning of Skepticism, Sycophancy, Detection-Correction, and Rung Collapse
- arxiv url: http://arxiv.org/abs/2602.08939v1
- Date: Mon, 09 Feb 2026 17:36:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.400606
- Title: CausalT5K: Diagnosing and Informing Refusal for Trustworthy Causal Reasoning of Skepticism, Sycophancy, Detection-Correction, and Rung Collapse
- Title(参考訳): CausalT5K: 懐疑症, 症状, 検出補正, 肺崩壊の信頼できる因果推論の診断と拒絶
- Authors: Longling Geng, Andy Ouyang, Theodore Wu, Daphne Barretto, Matthew John Hayes, Rachael Cooper, Yuqiao Zeng, Sameer Vijay, Gia Ancone, Ankit Rai, Matthew Wolfman, Patrick Flanagan, Edward Y. Chang,
- Abstract要約: CausalT5Kは10ドメインにわたる5000以上のケースの診断ベンチマークである。
合成ベンチマークとは異なり、CausalT5Kはリアルな物語に因果トラップを埋め込んでいる。
予備的な実験では、静的監査ポリシーが普遍的に失敗する4段階のコントロールランドスケープが示される。
- 参考スコア(独自算出の注目度): 1.4608214000864057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM failures in causal reasoning, including sycophancy, rung collapse, and miscalibrated refusal, are well-documented, yet progress on remediation is slow because no benchmark enables systematic diagnosis. We introduce CausalT5K, a diagnostic benchmark of over 5,000 cases across 10 domains that tests three critical capabilities: (1) detecting rung collapse, where models answer interventional queries with associational evidence; (2) resisting sycophantic drift under adversarial pressure; and (3) generating Wise Refusals that specify missing information when evidence is underdetermined. Unlike synthetic benchmarks, CausalT5K embeds causal traps in realistic narratives and decomposes performance into Utility (sensitivity) and Safety (specificity), revealing failure modes invisible to aggregate accuracy. Developed through a rigorous human-machine collaborative pipeline involving 40 domain experts, iterative cross-validation cycles, and composite verification via rule-based, LLM, and human scoring, CausalT5K implements Pearl's Ladder of Causation as research infrastructure. Preliminary experiments reveal a Four-Quadrant Control Landscape where static audit policies universally fail, a finding that demonstrates CausalT5K's value for advancing trustworthy reasoning systems. Repository: https://github.com/genglongling/CausalT5kBench
- Abstract(参考訳): 梅毒,ラング崩壊,誤診などの因果推論におけるLCMの障害は十分に文書化されているが,評価基準が体系的な診断を可能にするため,治療の進行は遅い。
カウサルT5K (CausalT5K) は10ドメインにまたがって5000件以上の症例を診断し,(1) 流出の検知,(2) 連関的証拠による介入クエリの応答,(2) 逆境的圧力下でのシコファンティックドリフトに対する抵抗,(3) 証拠が過小評価された場合の欠落情報を特定するワイズ・リファクション(Wise Refusals) の3つの重要な機能をテストする。
合成ベンチマークとは異なり、CausalT5Kは因果トラップをリアルな物語に組み込んで、パフォーマンスをユーティリティ(感度)とセーフティ(特異性)に分解し、精度を集約するために見えない障害モードを明らかにする。
40のドメインエキスパート、反復的なクロスバリデーションサイクル、ルールベースのLCMと人間のスコアリングによる複合検証を含む厳格な人間と機械の協調パイプラインを通じて開発されたCausalT5Kは、研究基盤としてPearl's Ladder of Causationを実装している。
予備的な実験では、静的監査ポリシーが普遍的に失敗するFour-Quadrant Control Landscapeが示されている。
Repository: https://github.com/genglongling/CausalT5kBench
関連論文リスト
- LogicGaze: Benchmarking Causal Consistency in Visual Narratives via Counterfactual Verification [41.99844472131922]
LogicGazeは視覚入力に対して逐次因果連鎖を検証できるかどうかを精査するために設計された新しいベンチマークフレームワークである。
我々の三部評価プロトコルは、Qwen2.5-VL-72Bのような最先端のVLMの重大な脆弱性を明らかにする。
LogicGazeは堅牢で信頼性の高いマルチモーダル推論を提唱しており、すべてのリソースは匿名リポジトリで公開されている。
論文 参考訳(メタデータ) (2026-01-30T20:28:01Z) - RAudit: A Blind Auditing Protocol for Large Language Model Reasoning [0.8594140167290097]
推論時間のスケーリングは、梅毒、暴走崩壊、早さの確実性といった推論の病理を増幅することができる。
基礎的な真理アクセスを伴わずにLCM推論を監査するための診断プロトコルであるRAuditを提案する。
論文 参考訳(メタデータ) (2026-01-30T16:22:45Z) - Think Locally, Explain Globally: Graph-Guided LLM Investigations via Local Reasoning and Belief Propagation [5.191980417814362]
LLMエージェントは、ほとんどの環境が静的で、必要な情報がモデルのコンテキストウインドウに適合する場合、排他的になる。
直腸型薬剤は、この体制では特に脆い。
本稿では,LLMが限定的な局所的エビデンスマイニングとラベリングを行うためのフレームワークであるEoGを提案する。
論文 参考訳(メタデータ) (2026-01-25T17:27:19Z) - CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。
CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-16T07:27:40Z) - SciIF: Benchmarking Scientific Instruction Following Towards Rigorous Scientific Intelligence [60.202862987441684]
科学的妥当性を確立する制約に厳格に固執しながら、問題を解決する能力。
具体的には,大学レベルの問題と制約の固定されたカタログをペアにすることで,この能力を評価するマルチディシプリンのベンチマークであるSciIFを紹介する。
SciIFは、解の正当性と多拘束性の両方を測定することにより、構成的推論失敗のきめ細かい診断を可能にする。
論文 参考訳(メタデータ) (2026-01-08T09:45:58Z) - Compressed Causal Reasoning: Quantization and GraphRAG Effects on Interventional and Counterfactual Accuracy [0.0]
本研究は, パールズ・コーサル・ラダーの全3レベルにわたる定量化効果を系統的に評価した。
Llama 3 8Bのラングレベルの精度は、量子化下では広く安定であり、NF4は全体の1%未満の劣化を示した。
CRASSベンチマークの実験では、既存のコモンセンスの反事実データセットには、量子化による推論ドリフトを明らかにするのに必要な構造感度が欠如していることが示されている。
論文 参考訳(メタデータ) (2025-12-13T17:54:15Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。