Fugu-MT 論文翻訳(概要): STL: Surprisingly Tricky Logic (for System Validation)

論文の概要: STL: Surprisingly Tricky Logic (for System Validation)

arxiv url: http://arxiv.org/abs/2305.17258v1
Date: Fri, 26 May 2023 21:01:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-30 20:52:01.985979
Title: STL: Surprisingly Tricky Logic (for System Validation)
Title（参考訳）: STL: 意外とトリッキーなロジック(システム検証用)
Authors: Ho Chit Siu, Kevin Leahy, and Makai Mann
Abstract要約: 検証正当性を決定する上では,仕様書の真正性,形式的手法に精通した被験者の親密性,教育水準が重要な要因であることが判明した。参加者は肯定バイアスを示し、有効仕様の精度は大幅に向上したが、無効仕様の精度は著しく低下した。
参考スコア（独自算出の注目度）: 0.04301276597844757
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Much of the recent work developing formal methods techniques to specify or learn the behavior of autonomous systems is predicated on a belief that formal specifications are interpretable and useful for humans when checking systems. Though frequently asserted, this assumption is rarely tested. We performed a human experiment (N = 62) with a mix of people who were and were not familiar with formal methods beforehand, asking them to validate whether a set of signal temporal logic (STL) constraints would keep an agent out of harm and allow it to complete a task in a gridworld capture-the-flag setting. Validation accuracy was $45\% \pm 20\%$ (mean $\pm$ standard deviation). The ground-truth validity of a specification, subjects' familiarity with formal methods, and subjects' level of education were found to be significant factors in determining validation correctness. Participants exhibited an affirmation bias, causing significantly increased accuracy on valid specifications, but significantly decreased accuracy on invalid specifications. Additionally, participants, particularly those familiar with formal methods, tended to be overconfident in their answers, and be similarly confident regardless of actual correctness. Our data do not support the belief that formal specifications are inherently human-interpretable to a meaningful degree for system validation. We recommend ergonomic improvements to data presentation and validation training, which should be tested before claims of interpretability make their way back into the formal methods literature.
Abstract（参考訳）: 自律システムの振る舞いを特定または学習するための形式的手法を開発する最近の研究の多くは、形式的仕様がシステムをチェックする際に人間にとって有用であるという信念に基づいている。しばしば主張されるが、この仮定は滅多にテストされない。人体実験(N = 62)を,前もって形式的手法に慣れていなかった人々を対象に実施し,信号時間論理(STL)の制約がエージェントに害を与えないようにし,グリッドワールド・キャプチャー・ザ・フラッグ・セッティングでタスクを完了させるかどうかを検証した。検証精度は$45\% \pm 20\%$(平均$\pm$標準偏差)であった。その結果, 仕様の真正性, 形式的手法に親しみ, 教育水準が, 検証正当性を決定する重要な要因であることが判明した。被験者は肯定バイアスを示し,有効仕様の精度は著しく向上したが,無効仕様の精度は有意に低下した。さらに、特に形式的手法に精通した参加者は、回答に過度に自信を持ち、実際の正確性に関係なく同様に自信を持つ傾向にあった。私たちのデータは、形式的仕様は本質的に人間に解釈可能であり、システム検証に有意義な程度である、という信念をサポートしていません。データ提示と検証トレーニングの人間工学的改善を推奨し、解釈可能性の主張が形式的な手法の文献に戻す前にテストすべきである。

関連論文リスト

Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny [68.00108157244952]
強化学習(RL)で訓練された大規模言語モデル(LLM)は、信頼性も拡張性もない、という大きな課題に直面している。有望だが、ほとんど報われていない代替手段は、フォーマルな言語ベースの推論である。生成モデルが形式言語空間(例えばダフニー)で機能する厳密な形式体系におけるLLMの接地は、それらの推論プロセスと結果の自動的かつ数学的に証明可能な検証を可能にする。
論文参考訳（メタデータ） (2025-07-22T08:13:01Z)
VEL: A Formally Verified Reasoner for OWL2 EL Profile [0.0]
VEL はマシンチェック可能な正当性証明を備えた公式な EL++ 推論器である。本研究は,理論および実装レベルでの正確性を確保するために,推論アルゴリズムの機械化の必要性を実証するものである。
論文参考訳（メタデータ） (2024-12-11T19:17:28Z)
FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees [41.78390564658645]
幻覚や非現実的コンテンツを生成するための大規模言語モデル(LLM)は、高い領域での信頼性を損なう。 FactTest は LLM が与えられた質問に対する正しい回答を確実に提供できるかどうかを統計的に評価する新しいフレームワークである。本研究では,FactTestが幻覚を効果的に検出し,未知の疑問に答えることを禁じるモデルの能力を向上させることにより,40%以上の精度向上を実現していることを示す。
論文参考訳（メタデータ） (2024-11-04T20:53:04Z)
LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-06-20T06:42:27Z)
Improving Autoformalization using Type Checking [15.58948808529849]
我々は、現在の自己形式化手法とそれらの評価に使用されるプロセスの両方を分析し、特にLean 4の定理証明言語に注目します。 ProofNetの絶対精度は18.4%まで向上し,既存の手法上での自己整合性による型チェックフィルタリングが性能を著しく向上することを示した。我々はまた、新しい研究レベルの数学データセット RLM25、修正されたProofNet、ラベル付き正誤オートフォーマライゼーションペアでメトリクスを評価するProofNetVerifといった新しいベンチマークもリリースした。
論文参考訳（メタデータ） (2024-06-11T13:01:50Z)
Consistent Validation for Predictive Methods in Spatial Settings [17.44650272751289]
空間予測タスクは天気予報や大気汚染の研究その他の科学的取り組みの鍵です検証のための古典的なアプローチでは、バリデーションで利用可能な場所と、予測したい場所(テスト)の間のミスマッチを処理できません。我々は、検証データが任意に密になるにつれて、検証が任意に正確になる検証方法を定式化する。
論文参考訳（メタデータ） (2024-02-05T21:33:22Z)
Efficient Conformal Prediction under Data Heterogeneity [79.35418041861327]
コンフォーマル予測(CP)は不確実性定量化のための頑健な枠組みである。非交換性に対処するための既存のアプローチは、最も単純な例を超えて計算不可能なメソッドにつながる。この研究は、比較的一般的な非交換可能なデータ分布に対して証明可能な信頼セットを生成する、CPに新しい効率的なアプローチを導入する。
論文参考訳（メタデータ） (2023-12-25T20:02:51Z)
Understanding and Mitigating Classification Errors Through Interpretable Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。提案手法であるPremiseが実際によく動作することを示す。
論文参考訳（メタデータ） (2023-11-18T00:24:26Z)
Testing for Overfitting [0.0]
オーバーフィッティング問題について議論し、トレーニングデータによる評価に標準値と集中値が成立しない理由を説明する。本稿では,モデルの性能をトレーニングデータを用いて評価できる仮説テストを紹介し,議論する。
論文参考訳（メタデータ） (2023-05-09T22:49:55Z)
CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文参考訳（メタデータ） (2022-06-01T03:02:07Z)
Logical Satisfiability of Counterfactuals for Faithful Explanations in NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。これは、説明に表される論理述語に基づいて、反実仮説を生成する。そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文参考訳（メタデータ） (2022-05-25T03:40:59Z)
Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。このような環境で予測の不確実性を定量化する手法を提案する。
論文参考訳（メタデータ） (2022-02-08T02:59:12Z)
Exploring the Capacity of a Large-scale Masked Language Model to Recognize Grammatical Errors [3.55517579369797]
トレーニングデータの5～10%は、BERTに基づく誤り検出法で、非言語モデルに基づく手法と同等の性能を実現するのに十分であることを示す。また、擬似誤差データを用いて、様々な種類の誤りを認識するための学習ルールにおいて、実際にそのような優れた特性を示すことを示す。
論文参考訳（メタデータ） (2021-08-27T10:37:14Z)
Information-Theoretic Probing with Minimum Description Length [74.29846942213445]
我々は,最小記述長 (MDL) を持つ情報理論探索法である標準プローブの代替案を提案する。 MDL Probingでは、ラベルを予測するためのプローブのトレーニングが、データを効果的に送信するための教えとして再キャストされる。これらの手法は結果に一致し、標準プローブよりも情報的かつ安定であることを示す。
論文参考訳（メタデータ） (2020-03-27T09:35:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。