論文の概要: Testing Compositionality
- arxiv url: http://arxiv.org/abs/2407.05028v1
- Date: Sat, 6 Jul 2024 09:45:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-09 21:18:15.725919
- Title: Testing Compositionality
- Title(参考訳): 構成性をテストする
- Authors: Gijs van Cuyck, Lars van Arragon, Jan Tretmans,
- Abstract要約: 構成性は、コンポーネントに取り組むことで、大きなシステムの操作をサポートする。
モデルベースのテストでは、コンポーネントをモデリングしてテストすることで、大規模なシステムをテストできる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Compositionality supports the manipulation of large systems by working on their components. For model-based testing, this means that large systems can be tested by modelling and testing their components: passing tests for all components implies passing tests for the whole system. In previous work [13], we defined mutual acceptance for specification models and proved that this is a sufficient condition for compositionality in model-based testing. In this paper, we present an algorithm for verifying mutual acceptance on specifications and a sound and exhaustive model-based test procedure for checking mutual acceptance on black-box implementations, both inspired by the idea of environmental conformance [7,8]. The result is that correctness of large systems can be determined by testing the component implementations for conformance to their component specification and for environmental conformance to the specification of their environment.
- Abstract(参考訳): 構成性は、コンポーネントに取り組むことで、大きなシステムの操作をサポートする。
モデルベースのテストでは、大規模なシステムはコンポーネントをモデル化してテストすることでテストすることができる。
これまでの研究[13]では、仕様モデルの相互受容を定義し、モデルベースのテストにおいて、これが構成性に十分な条件であることを証明した。
本稿では,仕様書の相互受理を検証するためのアルゴリズムと,環境適合性 [7,8] の考え方に触発されて,ブラックボックス実装の相互受理を検証するための音響および網羅的モデルベース試験手法を提案する。
その結果, 大規模システムの正当性は, コンポーネント仕様に従って, 環境仕様に従って, コンポーネント実装をテストすることによって決定できることがわかった。
関連論文リスト
- AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset [95.45316956434608]
嗜好学習は、大きな言語モデルと人間の価値の整合に不可欠である。
私たちの作業は、好みのデータセット設計をアドホックなスケーリングからコンポーネント対応の最適化にシフトします。
論文 参考訳(メタデータ) (2025-04-04T17:33:07Z) - Bounded Synthesis of Synchronized Distributed Models from Lightweight Specifications [4.08734863805696]
本稿では,軽量な形式仕様から同期モデルを自動的に合成する手法を提案する。
我々のアプローチは、グローバルな線形時間制約とともに、分散システムの仕様を入力として受け取ります。
同時実行がグローバルな制約を満たすコンポーネント仕様の実行可能なモデルを生成する。
論文 参考訳(メタデータ) (2025-02-19T18:54:32Z) - Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。
我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。
実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - Testing Resource Isolation for System-on-Chip Architectures [0.9176056742068811]
ハードウェアレベルでのリソースアイソレーションの確保は、モノのインターネットにおけるセキュリティ向上に向けた重要なステップである。
リソース分離のためのテスト生成におけるモデリングの側面、すなわち、振る舞いをモデル化し、意図したテストシナリオを表現する。
論文 参考訳(メタデータ) (2024-03-27T16:11:23Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - Test Case Recommendations with Distributed Representation of Code
Syntactic Features [2.225268436173329]
本稿では,ソースコード手法とテストケースの構造的・意味的特性を利用する自動手法を提案する。
提案するアプローチは、当初、メソッドレベルのソースコードとユニットテストを分散表現に変換するためにニューラルネットワークをトレーニングする。
このモデルは、メソッドの埋め込みと以前に組み込まれたトレーニングインスタンスのコサイン類似性を計算します。
論文 参考訳(メタデータ) (2023-10-04T21:42:01Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Validation of massively-parallel adaptive testing using dynamic control
matching [0.0]
現代のビジネスはしばしば同時に多数のA/B/nテストを実行し、多くのコンテンツバリエーションを同じメッセージにパッケージ化する。
本稿では, 連続試験適応条件下での各種試験の因果効果を解消する手法を提案する。
論文 参考訳(メタデータ) (2023-05-02T11:28:12Z) - A Verification Framework for Component-Based Modeling and Simulation
Putting the pieces together [0.0]
提案する検証フレームワークは,コンポーザビリティを異なるレベルで検証するための方法,テクニック,ツールサポートを提供する。
特に、コンポーザビリティ全体の正しさにおける重要性と、プロセスで生じる困難度から、ダイナミック・セマンティック・コンポータビリティ(Dynamic-Semantic Composability)のレベルに注目します。
論文 参考訳(メタデータ) (2023-01-08T18:53:28Z) - Hybrid Rule-Neural Coreference Resolution System based on Actor-Critic
Learning [53.73316523766183]
コアレゾリューションシステムは2つの主要なタスクに取り組む必要がある。
ひとつのタスクは、潜在的な言及のすべてを検出することであり、もう1つは、可能な言及ごとに前者のリンクを学習することである。
本稿では,アクター・クリティカル・ラーニングに基づく複合ルール・ニューラル・コア参照解決システムを提案する。
論文 参考訳(メタデータ) (2022-12-20T08:55:47Z) - Combining multiple matchers for fingerprint verification: A case study
in biosecure network of excellence [53.598636960435286]
指紋認証のための2つの参照システムは、追加の2つの非参照システムと共にテストされている。
実験結果から, 最適認識戦略は, 栄養素と相関測定の両方が関係していることが示唆された。
論文 参考訳(メタデータ) (2022-12-04T19:49:05Z) - On the Limits of Evaluating Embodied Agent Model Generalization Using
Validation Sets [101.28658250723804]
本稿では,より広い視野を効果的に活用し,次のステップでナビゲーションや操作を行うかを選択するモジュールによるトランスフォーマーモデルの拡張実験を行う。
提案したモジュールは改良され,実際に,一般的なベンチマークデータセットであるALFREDの未確認検証セット上での最先端のパフォーマンスが向上した。
この結果は、機械学習タスクではより広い現象かもしれないが、主にテストスプリットの評価を制限するベンチマークでのみ顕著である、と我々は考えているので強調する。
論文 参考訳(メタデータ) (2022-05-18T23:52:21Z) - fairlib: A Unified Framework for Assessing and Improving Classification
Fairness [66.27822109651757]
Fairlibは、分類の公平さを評価し改善するためのオープンソースのフレームワークである。
我々は、前処理、訓練時間、後処理を含む14のデバイアス化手法を実装した。
組み込まれたメトリクスは、最も一般的に使用されるフェアネス基準をカバーし、フェアネス評価のためにさらに一般化およびカスタマイズすることができる。
論文 参考訳(メタデータ) (2022-05-04T03:50:23Z) - Boost Test-Time Performance with Closed-Loop Inference [85.43516360332646]
そこで本研究では,モデル性能を高めるために,ループ方式でハードクラス化試験サンプルを予測することを提案する。
まず、追加の推論ループを必要とするハードクラス化テストサンプルを識別するためにフィルタリング基準を考案する。
各ハードサンプルに対して、モデルのキャリブレーションを行うために、元の上位$K$予測に基づいて補助学習タスクを構築する。
論文 参考訳(メタデータ) (2022-03-21T10:20:21Z) - Overview of Test Coverage Criteria for Test Case Generation from Finite
State Machines Modelled as Directed Graphs [0.12891210250935145]
テストカバレッジ基準は、システムアンダーテストモデルからテストケースを生成する際に、テストエンジニアにとって不可欠な概念です。
テストカバレッジ基準は、システムがテストされるアクションや組み合わせの数を定義します。
本研究は、有限状態機械の一般的なテストカバレッジ基準をすべて要約し、それらの仮定、等価性、および非互換性について議論した。
論文 参考訳(メタデータ) (2022-03-17T20:30:14Z) - Prioritized Variable-length Test Cases Generation for Finite State
Machines [0.09786690381850353]
モデルベーステスト(MBT)は、システムアンダーテストの一部が有限状態マシン(FSM)の特性を持つ場合のテストに有効な手法である。
本稿では,これらの要件をすべて満たしたテスト生成戦略を提案する。
本論文では,FSMの適用状況に応じて,機能的および非機能的ソフトウェア要件のテストにも適用可能である。
論文 参考訳(メタデータ) (2022-03-17T20:16:45Z) - Complete Agent-driven Model-based System Testing for Autonomous Systems [0.0]
複雑な自律輸送システムをテストするための新しいアプローチについて述べる。
検証と検証に関して最も重大な問題のいくつかを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-10-25T01:55:24Z) - Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on
Spoken Language Understanding [101.24748444126982]
分解可能なタスクは複雑で、サブタスクの階層から構成される。
しかし、既存のベンチマークでは、通常は表面レベルのサブタスクのみの例が示される。
サブタスク固有のユーティリティ関数上の座標アセントを用いて、ロバストなテストセットを構築するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T02:53:59Z) - Visual Composite Set Detection Using Part-and-Sum Transformers [74.26037922682355]
本稿では,エンドツーエンドのコンポジットセット検出を行うために,PST(Part-and-Sum Detection Transformer)という新しい手法を提案する。
PSTは、カスタムデザインの2段階モデルの結果とほぼ一致しながら、シングルステージモデル間で最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-05-05T16:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。