論文の概要: T3: Benchmarking Sycophancy and Skepticism in Causal Judgment
- arxiv url: http://arxiv.org/abs/2601.08258v1
- Date: Tue, 13 Jan 2026 06:29:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.082643
- Title: T3: Benchmarking Sycophancy and Skepticism in Causal Judgment
- Title(参考訳): T3:Causal JudgmentにおけるSycophancyと懐疑論のベンチマーク
- Authors: Edward Y. Chang,
- Abstract要約: 我々はPearl's Ladder of Causalityにおける因果判断を厳格に評価するために設計された診断ベンチマークであるT3(Testing Trustworthy Thinking)を紹介する。
T3をフロンティアモデルに適用することにより、L1の「懐疑的トラップ」とL3の非単調スケーリングパラドックスの2つの異なる病理を診断する。
後者では、より大きな GPT-5.2 は幻覚ではなく麻痺(過剰なヘッジ)への崩壊によって引き起こされ、GPT-4-Turbo を55ポイント減らした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce T3 (Testing Trustworthy Thinking), a diagnostic benchmark designed to rigorously evaluate LLM causal judgment across Pearl's Ladder of Causality. Comprising 454 expert-curated vignettes, T3 prioritizes high-resolution failure analysis, decomposing performance into Utility (sensitivity), Safety (specificity), and Wise Refusal on underdetermined cases. By applying T3 to frontier models, we diagnose two distinct pathologies: a "Skepticism Trap" at L1 (where safety-tuned models like Claude Haiku reject 60% of valid links) and a non-monotonic Scaling Paradox at L3. In the latter, the larger GPT-5.2 underperforms GPT-4-Turbo by 55 points on ambiguous counterfactuals, driven by a collapse into paralysis (excessive hedging) rather than hallucination. Finally, we use the benchmark to validate a process-verified protocol (RCA), showing that T3 successfully captures the restoration of decisive causal judgment under structured verification.
- Abstract(参考訳): 本稿では,Pearl's Ladder of CausalityにおけるLSM因果判定を厳格に評価するための診断ベンチマークであるT3(Testing Trustworthy Thinking)を紹介する。
専門家がキュレートした454個のウィグレットを補完し、T3は高分解能の故障解析を優先し、性能を実用性(感度)、安全性(特異性)、ワイズ拒否に分解する。
T3 をフロンティアモデルに適用することにより、L1 の "Skepticism Trap" と、L3 の非モノトニックスケーリングパラドックスの2つの異なる病態を診断する。
後者では、より大きな GPT-5.2 は幻覚ではなく麻痺(過剰なヘッジ)への崩壊によって引き起こされ、GPT-4-Turbo を55ポイント減らした。
最後に、このベンチマークを用いて、プロセス検証プロトコル(RCA)を検証し、T3が構造化された検証の下で決定因果判断の復元に成功していることを示す。
関連論文リスト
- Compressed Causal Reasoning: Quantization and GraphRAG Effects on Interventional and Counterfactual Accuracy [0.0]
本研究は, パールズ・コーサル・ラダーの全3レベルにわたる定量化効果を系統的に評価した。
Llama 3 8Bのラングレベルの精度は、量子化下では広く安定であり、NF4は全体の1%未満の劣化を示した。
CRASSベンチマークの実験では、既存のコモンセンスの反事実データセットには、量子化による推論ドリフトを明らかにするのに必要な構造感度が欠如していることが示されている。
論文 参考訳(メタデータ) (2025-12-13T17:54:15Z) - Performance of GPT-5 Frontier Models in Ophthalmology Question Answering [6.225411871775591]
GPT-5のような大規模言語モデル(LLM)は、医学的質問応答タスクのパフォーマンスを向上させる高度な推論機能を統合する。
O1高, O3高, GPT-4oとともに, OpenAI の GPT-5 シリーズの12 構成を評価した。
GPT-5-highは、O3-highより1.66倍、理性品質(1.11倍、O3-highより1.11倍)の両方で第1位である。
これらの結果は、GPT-5を高品質眼科データセット上でベンチマークし、推論が精度に与える影響を実証し、スケーラブルな評価のためのオートグラファーフレームワークを導入した。
論文 参考訳(メタデータ) (2025-08-13T17:17:17Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - A Framework for Creating Non-Regressive Test Cases via Branch Consistency Analysis Driven by Descriptions [9.141981611891715]
DISTINCT は Description-guided, branch-consistency analysis framework である。
LLM(Large Language Model)ベースのジェネレータを障害対応テストジェネレータに変換する。
コンパイル成功率(CSR)が14.64%、通過率(PR)が6.66%の平均的な改善を実現している。
論文 参考訳(メタデータ) (2025-06-09T07:05:48Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文 参考訳(メタデータ) (2023-09-05T11:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。