論文の概要: Re-evaluation of Logical Specification in Behavioural Verification
- arxiv url: http://arxiv.org/abs/2505.17979v1
- Date: Fri, 23 May 2025 14:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.168333
- Title: Re-evaluation of Logical Specification in Behavioural Verification
- Title(参考訳): 行動検証における論理的仕様の再評価
- Authors: Radoslaw Klimek, Jakub Semczyszyn,
- Abstract要約: 本研究では,行動モデルに対する自動論理仕様法を実証的に検証する。
自動推論における適応的性能不規則性の必要性を示唆する性能不規則性を特定する。
自己最適化解法によってこれらの非効率に対処することは、自動推論の安定性を高めることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study empirically validates automated logical specification methods for behavioural models, focusing on their robustness, scalability, and reproducibility. By the systematic reproduction and extension of prior results, we confirm key trends, while identifying performance irregularities that suggest the need for adaptive heuristics in automated reasoning. Our findings highlight that theorem provers exhibit varying efficiency across problem structures, with implications for real-time verification in CI/CD pipelines and AI-driven IDEs supporting on-the-fly validation. Addressing these inefficiencies through self-optimising solvers could enhance the stability of automated reasoning, particularly in safety-critical software verification.
- Abstract(参考訳): 本研究では, 動作モデルの自動設計手法を実証的に検証し, その堅牢性, 拡張性, 再現性に着目した。
先行結果の体系的再現と拡張により、自動推論における適応的ヒューリスティックの必要性を示唆する性能不規則性を特定しながら、重要な傾向を確認した。
この結果から,CI/CDパイプラインのリアルタイム検証や,オンザフライ検証をサポートするAI駆動IDEなど,問題構造全体において定理プローサの効率性が変化していることが示唆された。
自己最適化ソルバによるこれらの非効率性への対処は、特に安全クリティカルなソフトウェア検証において、自動推論の安定性を高める可能性がある。
関連論文リスト
- Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - Logic Mining from Process Logs: Towards Automated Specification and Verification [0.0]
本稿では、ワークフローを介して発見されたプロセスモデルから論理的仕様を生成するアプローチを提案する。
本研究では、品質データ、特にノイズが生成された仕様の構造とテスト容易性に与える影響について検討する。
論文 参考訳(メタデータ) (2025-06-10T09:44:19Z) - Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。
本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大きな言語モデル(LLM)は、不一致の自己認識のためにしばしば幻覚する。
既存のアプローチは、不確実性推定やクエリの拒否を通じて幻覚を緩和する。
高速かつ低速な推論システムを統合するための明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Word-Level ASR Quality Estimation for Efficient Corpus Sampling and
Post-Editing through Analyzing Attentions of a Reference-Free Metric [5.592917884093537]
品質推定(QE)メトリクスのポテンシャルは、ASRシステムにおける説明可能な人工知能(XAI)を強化する新しいツールとして導入され、評価される。
NoRefERメトリックの能力は、単語レベルの誤りを識別し、ASR仮説を補うのに役立つ。
論文 参考訳(メタデータ) (2024-01-20T16:48:55Z) - Surrogate Neural Networks Local Stability for Aircraft Predictive Maintenance [1.6703148532130556]
サロゲートニューラルネットワークは、計算的に要求されるエンジニアリングシミュレーションの代用として、産業で日常的に使用されている。
性能と時間効率のため、これらのサロゲートモデルは安全クリティカルなアプリケーションでの使用のために開発されている。
論文 参考訳(メタデータ) (2024-01-11T21:04:28Z) - Investigating Robustness in Cyber-Physical Systems: Specification-Centric Analysis in the face of System Deviations [8.8690305802668]
サイバー物理システム(CPS)の重要属性は堅牢性であり、安全に運用する能力を示している。
本稿では,特定のシステム要件を満たす上でのコントローラの有効性を特徴付ける,仕様に基づく新しいロバスト性を提案する。
本稿では, 微妙な堅牢性違反を識別するための2層シミュレーションに基づく解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-13T16:44:43Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。