論文の概要: Deterministic Event-Graph Substrates as World Models for Counterfactual Reasoning
- arxiv url: http://arxiv.org/abs/2605.15967v1
- Date: Fri, 15 May 2026 13:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.303951
- Title: Deterministic Event-Graph Substrates as World Models for Counterfactual Reasoning
- Title(参考訳): 擬似推論のための世界モデルとしての決定論的イベントグラフ基板
- Authors: Fabio Rovai,
- Abstract要約: 本研究では,エージェント状態を表す世界モデルのクラスを,タイプ付きRDFトリプルの付加オンリーログとして検討し,ログをフォークすることで対実クエリに応答する。
基板はトリプルレベルで検査可能で、正確なカウンターファクトをサポートし、学習済みのコンポーネントなしでドメイン間で転送できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study event-graph substrates: a class of world models that represent agent state as an append-only log of typed RDF triples and answer counterfactual queries by forking the log under a structured intervention vocabulary. Substrates are inspectable at the triple level, support exact counterfactuals, and transfer across domains without learned components. We formalize the class, prove a duality between explanatory and counterfactual queries that reduces both to the same causal-ancestor traversal, and evaluate a 1,400-line CLEVRER-DSL interpreter atop a domain-agnostic substrate runtime at full CLEVRER validation scale (n=75,618). The substrate exceeds the NS-DR symbolic oracle on all four per-question categories (by 9.89, 20.26, 17.65, and 0.80 percentage points), and exceeds the parametric ALOE baseline on descriptive and explanatory while lagging on predictive and counterfactual. We also introduce twin-EventLog, a 500-specification Park-canonical Smallville counterfactual benchmark on which the substrate exceeds Llama-3.1-8B with full context by 18.80 points joint accuracy.
- Abstract(参考訳): 入力されたRDFトリプルの付加オンリーログとしてエージェント状態を表現し、構造化された介入語彙の下でログをフォークすることにより、反ファクトクエリに応答する世界モデルのクラスであるイベントグラフ基板について検討する。
基板はトリプルレベルで検査可能で、正確なカウンターファクトをサポートし、学習済みのコンポーネントなしでドメイン間で転送できる。
我々は、クラスを形式化し、同じ因果関係のトラバーサルに還元する説明的クエリと反ファクト的クエリの双対性を証明し、完全なCLEVRER検証尺度(n=75,618)でドメインに依存しない基質ランタイム上の1,400行のCLEVRER-DSLインタプリタを評価する。
基板は4つのカテゴリー(9.89、20.26、17.65、0.80パーセンテージポイント)でNS-DRのシンボルオラクルを上回り、予測的、非現実的に遅延しながら説明的、説明的、説明的なパラメトリックALOEベースラインを上回ります。
また,500点のPark-canonical Smallville反ファクトベンチマークであるTwin-EventLogを導入し,Llama-3.1-8Bを基板がフルコンテキストで18.80ポイントのジョイント精度で上回った。
関連論文リスト
- MCPShield: Content-Aware Attack Detection for LLM Agent Tool-Call Traffic [1.827510863075184]
Model Context Protocol (MCP) は、エージェントが外部ツールを呼び出すために広く採用されているインタフェースである。
MCPは、各エージェントセッションをグラフとしてエンコードするMCPツールコールトラフィックのアタックフレームワークとして提示される。
論文 参考訳(メタデータ) (2026-05-11T14:55:48Z) - Deployment-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone [11.663456969895462]
機械学習におけるアライメント評価は、主にモデルの評価となっている。
本稿では, モデルレベルの評価だけでは, 配置関連アライメントを推定できないことを論じる。
論文 参考訳(メタデータ) (2026-05-06T03:28:30Z) - TADI: Tool-Augmented Drilling Intelligence via Agentic LLM Orchestration over Heterogeneous Wellsite Data [0.0]
TADI(Tool-Augmented Drilling Intelligence)は、ドリル操作データをエビデンスベースの分析インテリジェンスに変換するエージェントAIシステムである。
TADIは、毎日1,759件の掘削レポート、選択されたWITリアルタイムオブジェクト、15,634件の生産記録、生成トップ、穴を二重ストアアーキテクチャに統合している。
論文 参考訳(メタデータ) (2026-04-30T03:19:39Z) - Benchmarking Small Language Models and Small Reasoning Language Models on System Log Severity Classification [3.192782465393035]
最終タスクとしてではなく,実行時ログ理解のためのベンチマークとして扱われる場合,重大度分類の方が有益である,と我々は主張する。
9つの小言語モデル (SLM) と小推論言語モデル (SRLM) をゼロショット, 少数ショット, 検索強化世代 (RAG) のプロンプトで評価した。
論文 参考訳(メタデータ) (2026-01-12T18:02:33Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning [50.27838512822097]
我々は,グローバルRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。
我々は,チャンクレベルの検索によって構造的コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。
Qwen2.5-14Bモデルでは、GlobalRAGは最強のベースラインである1.51 F1と比較して6.63 F1を達成した。
論文 参考訳(メタデータ) (2025-10-30T07:29:14Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Active Learning++: Incorporating Annotator's Rationale using Local Model
Explanation [84.10721065676913]
アノテーションは、与えられたクエリの重要性に基づいて入力特徴をランク付けすることで、ラベルを選択するための根拠を提供することができる。
すべての委員会モデルを等しく重み付けして次の事例を選択する代わりに、アノテータのランクにより高い一致で委員会モデルにより高い重みを割り当てます。
このアプローチは、LIMEのような局所的な説明を生成するためにモデルに依存しない手法を用いて、任意の種類のMLモデルに適用できる。
論文 参考訳(メタデータ) (2020-09-06T08:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。