論文の概要: Re-evaluation of Logical Specification in Behavioural Verification
- arxiv url: http://arxiv.org/abs/2505.17979v1
- Date: Fri, 23 May 2025 14:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.168333
- Title: Re-evaluation of Logical Specification in Behavioural Verification
- Title(参考訳): 行動検証における論理的仕様の再評価
- Authors: Radoslaw Klimek, Jakub Semczyszyn,
- Abstract要約: 本研究では,行動モデルに対する自動論理仕様法を実証的に検証する。
自動推論における適応的性能不規則性の必要性を示唆する性能不規則性を特定する。
自己最適化解法によってこれらの非効率に対処することは、自動推論の安定性を高めることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study empirically validates automated logical specification methods for behavioural models, focusing on their robustness, scalability, and reproducibility. By the systematic reproduction and extension of prior results, we confirm key trends, while identifying performance irregularities that suggest the need for adaptive heuristics in automated reasoning. Our findings highlight that theorem provers exhibit varying efficiency across problem structures, with implications for real-time verification in CI/CD pipelines and AI-driven IDEs supporting on-the-fly validation. Addressing these inefficiencies through self-optimising solvers could enhance the stability of automated reasoning, particularly in safety-critical software verification.
- Abstract(参考訳): 本研究では, 動作モデルの自動設計手法を実証的に検証し, その堅牢性, 拡張性, 再現性に着目した。
先行結果の体系的再現と拡張により、自動推論における適応的ヒューリスティックの必要性を示唆する性能不規則性を特定しながら、重要な傾向を確認した。
この結果から,CI/CDパイプラインのリアルタイム検証や,オンザフライ検証をサポートするAI駆動IDEなど,問題構造全体において定理プローサの効率性が変化していることが示唆された。
自己最適化ソルバによるこれらの非効率性への対処は、特に安全クリティカルなソフトウェア検証において、自動推論の安定性を高める可能性がある。
関連論文リスト
- Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大きな言語モデル(LLM)は、不一致の自己認識のためにしばしば幻覚する。
既存のアプローチは、不確実性推定やクエリの拒否を通じて幻覚を緩和する。
高速かつ低速な推論システムを統合するための明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Surrogate Neural Networks Local Stability for Aircraft Predictive Maintenance [1.6703148532130556]
サロゲートニューラルネットワークは、計算的に要求されるエンジニアリングシミュレーションの代用として、産業で日常的に使用されている。
性能と時間効率のため、これらのサロゲートモデルは安全クリティカルなアプリケーションでの使用のために開発されている。
論文 参考訳(メタデータ) (2024-01-11T21:04:28Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。