論文の概要: T-Norm Operators for EU AI Act Compliance Classification: An Empirical Comparison of Lukasiewicz, Product, and Gödel Semantics in a Neuro-Symbolic Reasoning System
- arxiv url: http://arxiv.org/abs/2603.28558v1
- Date: Mon, 30 Mar 2026 15:19:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.472167
- Title: T-Norm Operators for EU AI Act Compliance Classification: An Empirical Comparison of Lukasiewicz, Product, and Gödel Semantics in a Neuro-Symbolic Reasoning System
- Title(参考訳): EU AI Act Compliance ClassificationのためのT-Norm演算子:ニューロシンボリック推論システムにおけるLukasiewicz,Product,Gödel Semanticsの実証比較
- Authors: Adam Laabs,
- Abstract要約: 我々は、3つのt-ノルム作用素(Lukasiewicz (T_L)、Product (T_P)、Gdel (T_G))の最初のパイロット研究を示す。
あいまいな症例に対する分類精度, 偽陽性, 偽陰性率, 操作者の行動について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a first comparative pilot study of three t-norm operators -- Lukasiewicz (T_L), Product (T_P), and Gödel (T_G) - as logical conjunction mechanisms in a neuro-symbolic reasoning system for EU AI Act compliance classification. Using the LGGT+ (Logic-Guided Graph Transformers Plus) engine and a benchmark of 1035 annotated AI system descriptions spanning four risk categories (prohibited, high_risk, limited_risk, minimal_risk), we evaluate classification accuracy, false positive and false negative rates, and operator behaviour on ambiguous cases. At n=1035, all three operators differ significantly (McNemar p<0.001). T_G achieves highest accuracy (84.5%) and best borderline recall (85%), but introduces 8 false positives (0.8%) via min-semantics over-classification. T_L and T_P maintain zero false positives, with T_P outperforming T_L (81.2% vs. 78.5%). Our principal findings are: (1) operator choice is secondary to rule base completeness; (2) T_L and T_P maintain zero false positives but miss borderline cases; (3) T_G's min-semantics achieves higher recall at cost of 0.8% false positive rate; (4) a mixed-semantics classifier is the productive next step. We release the LGGT+ core engine (201/201 tests passing) and benchmark dataset (n=1035) under Apache 2.0.
- Abstract(参考訳): 本稿では、EU AI Act準拠分類のための神経-記号推論システムにおける論理的結合機構として、Lukasiewicz(T_L)、Product(T_P)、Gödel(T_G)の3つのt-ノルム演算子の比較実験を行った。
LGGT+(Logic-Guided Graph Transformers Plus)エンジンと,4つのリスクカテゴリ(prohibited, high_risk, limited_risk, minimal_risk)にまたがる1035のアノテートAIシステム記述のベンチマークを用いて,分類精度,偽陽性および偽陰性率,あいまいなケースに対するオペレータ動作を評価する。
n=1035 では、3つの作用素は全て異なる(McNemar p<0.001)。
T_Gは高い精度 (84.5%) と最良の境界線リコール (85%) を達成するが、ミンセマンティックオーバークラス化によって8つの偽陽性 (0.8%) を導入する。
T_LとT_Pはゼロ偽陽性を維持し、T_PはT_L(81.2%対78.5%)を上回っている。
主な知見は,(1)操作者選択はルールベース完全性に準ずるものであり,(2)T_LとT_Pはゼロの偽陽性を維持し,(2)T_Gのミンセマンティックスは0.8%の偽陽性率で高いリコールを達成し,(4)混合セマンティック分類器は次の生産的ステップである。
我々は,LGGT+コアエンジン(201/201テストパス)とベンチマークデータセット(n=1035)をApache 2.0でリリースした。
関連論文リスト
- Greedy Is a Strong Default: Agents as Iterative Optimizers [0.22843885788439797]
ランダムな提案生成装置をLCMエージェントに置き換え、評価診断を理由として情報付き候補を提案する。
離散的,混合的,連続的な検索空間にまたがる4つのタスクを評価する。
論文 参考訳(メタデータ) (2026-03-28T21:26:40Z) - OrgForge-IT: A Verifiable Synthetic Benchmark for LLM-Based Insider Threat Detection [0.0]
本稿では,決定論的シミュレーションエンジンが基底真理を維持し,言語モデルが表面の散文のみを生成する検証可能な合成ベンチマークを提案する。
コーパスは51日の模擬日、2,904回のテレメトリ記録を96.4%のノイズレートで記録し、単面と単日のトリアージ戦略を破るために設計された4つの検出シナリオをカバーしている。
論文 参考訳(メタデータ) (2026-03-23T19:03:53Z) - VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文 参考訳(メタデータ) (2026-01-19T07:21:19Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Development of a fully deep learning model to improve the reproducibility of sector classification systems for predicting unerupted maxillary canine likelihood of impaction [0.11726720776908518]
本研究の目的は,セクター分類システムの内・間運用者を減らすための,完全深層学習モデルを開発することである。
DenseNet121は3つの異なるクラスで影響を受け、全体的な精度は76.8%であった。
論文 参考訳(メタデータ) (2025-11-24T14:45:46Z) - Enhanced Predictive Modeling for Hazardous Near-Earth Object Detection: A Comparative Analysis of Advanced Resampling Strategies and Machine Learning Algorithms in Planetary Risk Assessment [0.0]
本研究では,二元分類フレームワークによる有害地球近傍天体(NEO)の予測のための機械学習モデルの性能評価を行った。
RFC と GBC はともに 0.987 と 0.896 の印象的な F2 スコアで最高の性能を発揮した。
論文 参考訳(メタデータ) (2025-08-20T22:50:00Z) - Probabilistic Soundness Guarantees in LLM Reasoning Chains [37.440902632372904]
ARES(Autoregressive Reasoning Entailment Stability)は、事前に検証された前提のみに基づいて、各推論ステップを評価する確率的フレームワークである。
ARESは4つのベンチマークで最先端のパフォーマンスを達成し、非常に長い合成推論チェーン上で優れた堅牢性を示す。
論文 参考訳(メタデータ) (2025-07-17T09:40:56Z) - GenFair: Systematic Test Generation for Fairness Fault Detection in Large Language Models [0.12891210250935142]
大規模言語モデル(LLM)は、ますます重要なドメインにデプロイされるようになっているが、トレーニングデータから受け継がれたバイアスがしばしば現れ、公平性に関する懸念がもたらされる。
この研究は、フェアネス違反を効果的に検出する問題、特に既存のテンプレートベースおよび文法ベースのテスト手法でしばしば見逃される交叉バイアスに焦点をあてる。
我々は、同値分割、突然変異演算子、境界値解析を用いて、ソーステストケースを生成する変成フェアネステストフレームワークGenFairを提案する。
論文 参考訳(メタデータ) (2025-06-03T16:00:30Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Smoothed Contrastive Learning for Unsupervised Sentence Embedding [41.09180639504244]
我々は、Gaussian Smoothing InfoNCE (GS-InfoNCE)と呼ばれるInfoNCE損失関数に基づく平滑化戦略を導入する。
GS-InfoNCEは、BERT-base、BERT-large、RoBERTa-base、RoBERTa-largeのベースで平均1.38%、0.72%、1.17%、0.28%のスピアマン相関によって、最先端のUnsup-SimCSEよりも優れている。
論文 参考訳(メタデータ) (2021-09-09T14:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。