論文の概要: ABD: Default Exception Abduction in Finite First Order Worlds
- arxiv url: http://arxiv.org/abs/2602.18843v1
- Date: Sat, 21 Feb 2026 14:14:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.348095
- Title: ABD: Default Exception Abduction in Finite First Order Worlds
- Title(参考訳): ABD:第1次世界ランキングでデフォルト例外減産
- Authors: Serafim Batzoglou,
- Abstract要約: 有限個の一階世界に対するデフォルト例外減退のベンチマークであるABDを導入する。
異常述語を含む背景理論が与えられた場合、モデルは例外を定義した一階述語を出力し、例外をスパースに保ちながら満足度を回復しなければならない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ABD, a benchmark for default-exception abduction over finite first-order worlds. Given a background theory with an abnormality predicate and a set of relational structures, a model must output a first-order formula that defines exceptions, restoring satisfiability while keeping exceptions sparse. We formalize three observation regimes (closed-world, existential completion, universal completion) with exact SMT verification. Evaluating ten frontier LLMs on 600 instances, the best models achieve high validity but parsimony gaps remain, and holdout evaluation reveals distinct generalization failure modes across regimes.
- Abstract(参考訳): 有限個の一階世界に対するデフォルト例外減退のベンチマークであるABDを導入する。
異常述語と一連の関係構造を持つ背景理論が与えられた場合、モデルは例外を定義する一階述語を出力し、例外をスパースに保ちながら満足度を回復しなければならない。
我々は、正確なSMT検証により、3つの観測体制(閉世界、実存完結、普遍完結)を定式化する。
600のインスタンス上で10のフロンティアLSMを評価することで、最良のモデルは高い妥当性を達成するが、パーシモニーギャップは残る。
関連論文リスト
- INDUCTION: Finite-Structure Concept Synthesis in First-Order Logic [0.0]
拡張ラベル付き対象述語を持つ小さな有限リレーショナル世界が与えられると、モデルは、その対象を全世界で均一に説明する1階の論理式を出力しなければならない。
急激な難易度勾配, 永続的な硬い構造族を見いだし, 低肥大化の公式が保留世界をはるかに良く一般化するのを観察した。
論文 参考訳(メタデータ) (2026-02-21T21:21:40Z) - On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks [56.98385132295952]
簡単な計画課題において,チェーン・オブ・ソート・アプローチがいかに一般化するかを評価する。
複数のテキスト形式を組み合わせた推論トレースが、最高の(かつ非自明な)OOD一般化をもたらすことが分かりました。
純粋にテキストベースのモデルは、画像ベースの入力を利用するモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-02-17T09:51:40Z) - ProbeLLM: Automating Principled Diagnosis of LLM Failures [89.44131968886184]
ProbeLLMはベンチマークに依存しない自動探索フレームワークで、個々の障害から構造的障害モードへの脆弱性発見を増大させる。
ProbeLLMは、検証可能なテストケースにプローブを制限し、ツールの拡張された生成と検証を活用することで、信頼性のある証拠として障害発見を根拠とする。
論文 参考訳(メタデータ) (2026-02-13T14:33:13Z) - Less Is More for Multi-Step Logical Reasoning of LLM Generalisation Under Rule Removal, Paraphrasing, and Compression [3.3492355863487275]
大規模言語モデル(LLM)は多くの自然言語処理において高い性能を達成するが、論理規則系の構造的摂動下での一般化は依然として不十分である。
本研究では,4つの応力試験による推理信頼性の検証を行う制御評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-06T10:49:50Z) - Unified Unsupervised Anomaly Detection via Matching Cost Filtering [113.43366521994396]
教師なし異常検出(UAD)は、通常のトレーニングデータのみを用いて画像レベルの異常と画素レベルの異常を識別することを目的としている。
UADモデルの異常コスト量を補正するための汎用的なポストホック精錬フレームワークであるUnified Cost Filtering (UCF) を提案する。
論文 参考訳(メタデータ) (2025-10-03T03:28:18Z) - AnomalyMoE: Towards a Language-free Generalist Model for Unified Visual Anomaly Detection [29.06542941993374]
AnomalyMoEは、Mixture-of-Expertsアーキテクチャに基づいた、新しく普遍的な異常検出フレームワークである。
我々の重要な洞察は、複雑な異常検出問題を3つの異なる意味階層に分解することである。
AnomalyMoEはパッチ、コンポーネント、グローバルレベルで3つの専用の専門家ネットワークを使用している。
論文 参考訳(メタデータ) (2025-08-08T10:33:18Z) - Graphical Conditions for the Existence, Unicity and Number of Regular Models [0.9374652839580183]
有限基底正規論理プログラムにおける正規モデルの存在,一意性,および数を分析する。
証明の鍵となるのは、有限基底正規論理プログラムとブールネットワーク理論の間の接続である。
論文 参考訳(メタデータ) (2025-02-13T11:50:20Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Failures of model-dependent generalization bounds for least-norm
interpolation [39.97534972432276]
最小ノルム線形回帰器の一般化性能に関するバウンダリを考察する。
訓練例における様々な自然な関節分布に対して、任意の有効な一般化境界は非常に緩くなければならない。
論文 参考訳(メタデータ) (2020-10-16T16:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。