論文の概要: ReplaySCM: A Benchmark for Executable Causal Mechanism Induction from Interventions
- arxiv url: http://arxiv.org/abs/2605.08197v1
- Date: Tue, 05 May 2026 19:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.453063
- Title: ReplaySCM: A Benchmark for Executable Causal Mechanism Induction from Interventions
- Title(参考訳): ReplaySCM: 介入による実行可能な因果メカニズムのベンチマーク
- Authors: Serafim Batzoglou,
- Abstract要約: ReplaySCMは、有限介入による因果機構誘導のための1,300項目のベンチマークである。
各項目は、潜在完全に観察された非環状構造因果モデル(SCM)によって生成される二元世界を含む。
ReplaySCMは、Ordered、Block-order、Hidden-order、Hidden-roots設定を通じて、モデルに公開された構造情報を変更します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most causal benchmarks for language models score local answers or graph structure. We introduce ReplaySCM, a 1,300 item benchmark for executable causal mechanism induction from finite interventional evidence. Each item contains binary worlds generated by a latent fully observed acyclic Boolean structural causal model (SCM). A system must output a mechanism map in a restricted Boolean DSL; the submission is parsed, checked for legality and acyclicity, and replayed on training and held-out intervention worlds. Scoring uses replay behavior rather than formula strings, so syntactically different mechanisms receive credit when they behave correctly. ReplaySCM varies the structural information disclosed to the model through Ordered, Block-order, Hidden-order, and Hidden-roots settings, and includes Alternative-SCM tasks that supply a valid reference SCM and ask for a semantically distinct alternative that fits the training worlds, together with a separating intervention and witness. Frontier LLMs infer parts of the functional-parent structure, but held-out replay drops sharply when order or root structure is hidden. We also evaluate a matched support-audit ladder: Original, Extra Worlds, and Counterexample Audit (CEx), that raises mean local predecessor-pattern coverage from 0.8949 to 0.9815 to 1.0; under the audited searches, no discovered semantic alternative remains consistent with the training worlds. The Ordered/Hidden-order gap persists under this stronger evidence. ReplaySCM complements answer-level causal reasoning and graph-discovery benchmarks by evaluating executable replay generalization from finite interventional evidence, without claiming unique identification of the latent SCM.
- Abstract(参考訳): 言語モデルのほとんどの因果ベンチマークは、局所的な回答やグラフ構造をスコアする。
本稿では,有限介入による因果メカニズム誘導のための1,300項目のベンチマークであるReplaySCMを紹介する。
各項目は、潜在完全に観察された非循環的ブール構造因果モデル(SCM)によって生成される二元世界を含む。
システムは、制限されたブールDSLでメカニズムマップを出力し、申請を解析し、合法性と非循環性を確認し、トレーニングと保持された介入の世界で再生する必要がある。
スコリングは公式文字列ではなくリプレイ動作を使用するため、構文的に異なるメカニズムが正しく振る舞うとクレジットを受け取る。
ReplaySCMは、オーダード、ブロックオーダー、ハイデンオーダー、ハイデンルート設定を通じてモデルに開示される構造情報を変更し、有効な参照SCMを提供する代替SCMタスクを含み、トレーニングの世界に適合する意味的に異なる代替案を、分離された介入と目撃と共に要求する。
フロンティアLSMは、機能的パーフェクト構造の一部を推測するが、順序やルート構造が隠された場合、ホールドアウトリプレイは急激に低下する。
我々はまた、一致したサポート監査のはしごも評価した: オリジナル、エクストラワールド、カウンターエクサンドル監査(CEx)は、平均的な局所的な前処理パターンのカバレッジを0.8949から0.9815から1.0に引き上げる。
オーダード/ハイデン-オーダーギャップは、この強い証拠の下で持続する。
ReplaySCMは、有限介入証拠から実行可能なリプレイ一般化を評価することで、応答レベルの因果推論とグラフ探索ベンチマークを補完する。
関連論文リスト
- AsmRAG: LLM-Driven Malware Detection by Retrieving Functionally Similar Assembly Code [1.2183405753834562]
本稿では,AsmRAGについて紹介する。
このシステムは、LLM(Code-specialized Large Language Model)を使用してアセンブリ関数を分析し、それらをセマンティックな埋め込みに変換する。
そこで本研究では,バイナリ内の悪意論理の一次単位を分離し,検証可能な法医学的証拠を抽出し,回避の試みに抵抗する密度重み付きアンカー選択機構を提案する。
論文 参考訳(メタデータ) (2026-04-25T08:05:50Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces [0.0]
Agent Execution Record (AER) は構造化された推論プリミティブであり、すべてのステップで第一級クエリ可能なフィールドとしてインテント、観察、推論をキャプチャする。
AERが集団レベルの行動分析を可能にする方法を示す: 推論パターンマイニング、信頼度校正、クロスエージェント比較、モックリプレイによる反事実回帰テスト。
論文 参考訳(メタデータ) (2026-03-23T08:27:54Z) - AEGIS: From Clues to Verdicts -- Graph-Guided Deep Vulnerability Reasoning via Dialectics and Meta-Auditing [9.271196825503417]
大きな言語モデル(LLM)は、脆弱性検出にますます採用されているが、その推論は基本的には正しくない。
AEGISは、未解決の投機から、クローズドな事実ベース上の法医学的検証へ、検出をシフトする新しいマルチエージェントフレームワークである。
これは、主要なベースラインと比較して偽陽性率を最大54.40%削減し、1サンプルあたりの平均コストはタスク固有のトレーニングなしで0.09ドルである。
論文 参考訳(メタデータ) (2026-03-21T04:12:04Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。