論文の概要: FregeLogic at SemEval 2026 Task 11: A Hybrid Neuro-Symbolic Architecture for Content-Robust Syllogistic Validity Prediction
- arxiv url: http://arxiv.org/abs/2604.18328v1
- Date: Mon, 20 Apr 2026 14:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.935527
- Title: FregeLogic at SemEval 2026 Task 11: A Hybrid Neuro-Symbolic Architecture for Content-Robust Syllogistic Validity Prediction
- Title(参考訳): FregeLogic at SemEval 2026 Task 11: A Hybrid Neuro-Symbolic Architecture for Content-Robust Syllogistic Validity Prediction
- Authors: Adewale Akinfaderin, Nafi Diallo,
- Abstract要約: SemEval-2026タスク11(Subtask 1)のハイブリッド型ニューロシンボリックシステムであるFregeLogicについて紹介する。
本システムでは,2.85のコンテンツ効果と41.88の総合スコアで94.3%の精度を実現した。
本研究は,アンサンブルコンセンサスが最も低い形式的手法を適用した目的のニューロシンボリックな統合が,本課題で用いられる精度+コンテント・エフェクト・エフェクト・メトリクスの組合せを改善することを示唆している。
- 参考スコア(独自算出の注目度): 0.0017904458681854366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present FregeLogic, a hybrid neuro-symbolic system for SemEval-2026 Task 11 (Subtask 1), which addresses syllogistic validity prediction while reducing content effects on predictions. Our approach combines an ensemble of five LLM classifiers, spanning three open-weights models (Llama 4 Maverick, Llama 4 Scout, and Qwen3-32B) paired with varied prompting strategies, with a Z3 SMT solver that serves as a formal logic tiebreaker. The central hypothesis is that LLM disagreement within the ensemble signals likely content-biased errors, where real-world believability interferes with logical judgment. By deferring to Z3's structurally-grounded formal verification on these disputed cases, our system achieves 94.3% accuracy with a content effect of 2.85 and a combined score of 41.88 in nested 5-fold cross-validation on the dataset (N=960). This represents a 2.76-point improvement in combined score over the pure ensemble (39.12), with a 0.9% accuracy gain, driven by a 16% reduction in content effect (3.39 to 2.85). Adopting structured-output API calls for Z3 extraction reduced failure rates from ~22% to near zero, and an Aristotelian encoding with existence axioms was validated against task annotations. Our results suggest that targeted neuro-symbolic integration, applying formal methods precisely where ensemble consensus is lowest, can improve the combined accuracy-plus-content-effect metric used by this task.
- Abstract(参考訳): 本稿では,SemEval-2026 Task 11(Subtask 1)のハイブリッド型ニューロシンボリックシステムであるFregeLogicについて述べる。
提案手法は,Llama 4 Maverick, Llama 4 Scout, Qwen3-32Bの3つのオープンウェイトモデルに,様々なプロンプト戦略を組み合わせた5つのLLM分類器と,形式論理タイブレーカとして機能するZ3 SMTソルバを組み合わせたものである。
中心的な仮説は、LLMのアンサンブル内の不一致は、現実世界の信頼性が論理的判断に干渉する、内容バイアスのある誤りを示唆するものである。
これらの問題に対するZ3の構造的根拠による形式的検証を考慮し、本システムは、データセット上のネストされた5倍のクロスバリデーションにおいて、2.85のコンテンツ効果と41.88の総合スコアで94.3%の精度を達成する(N=960)。
これは純粋なアンサンブル(39.12)よりも2.76ポイントのスコアが向上し、コンテント効果(3.39から2.85)の16%減少によって精度が0.9%向上したことを意味する。
Z3抽出のための構造化出力API呼び出しを採用することで、エラー率を約22%からほぼゼロに削減し、タスクアノテーションに対して存在公理を持つアリストテレス符号化が検証された。
本研究は,アンサンブルコンセンサスが最も低い形式的手法を適用した目的のニューロシンボリックな統合が,本課題で用いられる精度+コンテント・エフェクト・エフェクト・メトリクスの組合せを改善することを示唆している。
関連論文リスト
- WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference [56.297697169678095]
WISV(Wireless-Informed Semantic Verification)は、分散投機的復号化フレームワークである。
WISVは最大60.8%の許容長の増加、37.3%の対話ラウンドの削減、31.4%のエンドツーエンドレイテンシの改善を実現している。
NVIDIA Jetson AGX OrinとA40搭載サーバからなるハードウェアテストベッド上でWISVを検証する。
論文 参考訳(メタデータ) (2026-04-20T01:29:56Z) - THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture [0.0]
TheIAは、外部のシンボル推論や手書きのK3ゲートプリミティブなしでタスクデータから完全なKleene 3値論理(K3)を学習する。
トランスフォーマーのベースラインは39の規則すべてで99%に到達し、フラットは0.04pp以内のフェーズ1の精度でTheIAと一致している。
論文 参考訳(メタデータ) (2026-04-13T10:44:15Z) - Fragile Reasoning: A Mechanistic Analysis of LLM Sensitivity to Meaning-Preserving Perturbations [2.7946918847372277]
大規模言語モデルは、数学的推論ベンチマークにおいて強い性能を示すが、意味を保存する表面摂動に対して驚くほど脆弱である。
我々は677 GSM8K問題に対して,3つのオープンウェイトLLM(Mistral-7B,Llama-3-8B,Qwen2.5-7B)を意味論的に等価な変種と組み合わせて評価した。
3つのモデルはいずれも相当な解答フリップ率(28.8%-45.1%)を示し、数字のパラフレーズは名前スワップよりも一貫して破壊的である。
論文 参考訳(メタデータ) (2026-04-02T05:30:20Z) - LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning [46.294745464571456]
LongCat-Flash-Proverはエージェントツール統合推論のためのオープンソースのMoEモデルである。
これは、自己形式化と定理証明の両方において、オープンウェイトモデルのための新しい最先端状態を設定する。
MiniF2F-Testのパスレートは97.1%で、72の推論予算しか使用していない。
論文 参考訳(メタデータ) (2026-03-22T05:16:09Z) - Differentiable Symbolic Planning: A Neural Architecture for Constraint Reasoning with Learned Feasibility [0.0]
微分可能シンボリックプランニング(DSP)は、離散的シンボリック推論を行うニューラルネットワークである。
DSPをUniversal Cognitive Kernel(UCK)に統合し、グラフ注意と反復的制約伝搬を組み合わせた。
UCK+DSPは4倍の精度で計画の精度を97.4%向上させる。
論文 参考訳(メタデータ) (2026-02-19T03:38:03Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - JTok: On Token Embedding as another Axis of Scaling Law via Joint Token Self-modulation [46.64215658042213]
補助埋め込みテーブルから得られる変調ベクトルを用いてトランスフォーマー層を拡大するジョイント・トケン(JTok)とジョイント・トケン(JTok-M)の混合を導入する。
これらのベクトルは、軽量な要素演算によってバックボーンを変調し、無視可能なFLOPのオーバーヘッドを発生させる。
我々のアプローチは、検証損失を継続的に減らし、ダウンストリームタスクのパフォーマンスを大幅に改善します。
論文 参考訳(メタデータ) (2026-01-31T16:15:18Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Accurate and Reliable Predictions with Mutual-Transport Ensemble [46.368395985214875]
Kullback-Leibler (KL) を用いた共学習補助モデルの提案とクロスエントロピー損失の適応的正則化
MTEは精度と不確実性の両方を同時に向上させることができる。
例えば、CIFAR-100データセットでは、我々のResNet34/50上のMTEメソッドは、従来の最先端の手法に比べて大幅に改善された。
論文 参考訳(メタデータ) (2024-05-30T03:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。