Fugu-MT 論文翻訳(概要): Testing Compositionality

論文の概要: Testing Compositionality

arxiv url: http://arxiv.org/abs/2407.05028v2
Date: Tue, 20 May 2025 14:25:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:51.154008
Title: Testing Compositionality
Title（参考訳）: 構成性をテストする
Authors: Gijs van Cuyck, Lars van Arragon, Jan Tretmans,
Abstract要約: 本稿では,実践において相互受理を利用するための3つの主要なアルゴリズムを提案する。まず、仕様の相互受容を検証し、有効な実装すべてに対する構成性を証明する。第2に,特定のブラックボックス実装に対する相互受け入れをチェックする,健全で徹底的なモデルベーステスト手順を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Compositionality supports the manipulation of large systems by working on their components. For model-based testing, this means that large systems can be tested by modelling and testing their components: passing tests for all components implies passing tests for the whole system. In previous work, we defined mutual acceptance for specification models and proved that this property is a sufficient condition for compositionality in model-based testing. In this paper, we present three main algorithms for using mutual acceptance in practice. First, we can verify mutual acceptance on specifications, proving compositionality for all valid implementations. Second, we give a sound and exhaustive model-based testing procedure which checks mutual acceptance on a specific black-box implementation. The result is that testing the correctness of large systems can be decomposed into testing the component implementations for uioco conformance to their specifications, and testing for environmental conformance to the specifications of their environment. Finally, we optimise this procedure further by utilizing the constraints imposed by multiple specifications at the same time. These three algorithms together allow picking the most suitable approach for a given situation, trading in more generalizable results for faster runtime by optimising for a specific context as desired.
Abstract（参考訳）: 構成性は、コンポーネントに取り組むことで、大きなシステムの操作をサポートする。モデルベースのテストでは、大規模なシステムはコンポーネントをモデル化してテストすることでテストすることができる。過去の研究では,仕様モデルの相互受容を定義し,この特性がモデルベーステストにおける構成性に十分な条件であることを証明した。本稿では,実際に相互受理を行うための3つの主要なアルゴリズムを提案する。まず、仕様の相互受容を検証し、有効な実装すべてに対する構成性を証明する。第2に,特定のブラックボックス実装に対する相互受け入れをチェックする,健全で徹底的なモデルベーステスト手順を提案する。その結果, 大規模システムの正しさの検証は, ユオコ仕様に適合するコンポーネント実装の試験, 環境仕様に適合する環境条件の試験に分解できることがわかった。最後に、複数の仕様が課す制約を同時に活用することにより、この手順をさらに最適化する。これら3つのアルゴリズムは、与えられた状況に対して最も適したアプローチを選択し、特定のコンテキストを望ましいように最適化することで、より一般化可能な結果とより高速な実行環境でのトレーディングを可能にする。

関連論文リスト

AIR: A Systematic Analysis of Annotations, Instructions, and Response Pairs in Preference Dataset [95.45316956434608]
嗜好学習は、大きな言語モデルと人間の価値の整合に不可欠である。私たちの作業は、好みのデータセット設計をアドホックなスケーリングからコンポーネント対応の最適化にシフトします。
論文参考訳（メタデータ） (2025-04-04T17:33:07Z)
Bounded Synthesis of Synchronized Distributed Models from Lightweight Specifications [4.08734863805696]
本稿では,軽量な形式仕様から同期モデルを自動的に合成する手法を提案する。我々のアプローチは、グローバルな線形時間制約とともに、分散システムの仕様を入力として受け取ります。同時実行がグローバルな制約を満たすコンポーネント仕様の実行可能なモデルを生成する。
論文参考訳（メタデータ） (2025-02-19T18:54:32Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
Testing Resource Isolation for System-on-Chip Architectures [0.9176056742068811]
ハードウェアレベルでのリソースアイソレーションの確保は、モノのインターネットにおけるセキュリティ向上に向けた重要なステップである。リソース分離のためのテスト生成におけるモデリングの側面、すなわち、振る舞いをモデル化し、意図したテストシナリオを表現する。
論文参考訳（メタデータ） (2024-03-27T16:11:23Z)
Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文参考訳（メタデータ） (2023-10-30T09:46:19Z)
Test Case Recommendations with Distributed Representation of Code Syntactic Features [2.225268436173329]
本稿では,ソースコード手法とテストケースの構造的・意味的特性を利用する自動手法を提案する。提案するアプローチは、当初、メソッドレベルのソースコードとユニットテストを分散表現に変換するためにニューラルネットワークをトレーニングする。このモデルは、メソッドの埋め込みと以前に組み込まれたトレーニングインスタンスのコサイン類似性を計算します。
論文参考訳（メタデータ） (2023-10-04T21:42:01Z)
On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。 TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文参考訳（メタデータ） (2023-06-06T09:35:29Z)
Validation of massively-parallel adaptive testing using dynamic control matching [0.0]
現代のビジネスはしばしば同時に多数のA/B/nテストを実行し、多くのコンテンツバリエーションを同じメッセージにパッケージ化する。本稿では, 連続試験適応条件下での各種試験の因果効果を解消する手法を提案する。
論文参考訳（メタデータ） (2023-05-02T11:28:12Z)
A Verification Framework for Component-Based Modeling and Simulation Putting the pieces together [0.0]
提案する検証フレームワークは,コンポーザビリティを異なるレベルで検証するための方法,テクニック,ツールサポートを提供する。特に、コンポーザビリティ全体の正しさにおける重要性と、プロセスで生じる困難度から、ダイナミック・セマンティック・コンポータビリティ(Dynamic-Semantic Composability)のレベルに注目します。
論文参考訳（メタデータ） (2023-01-08T18:53:28Z)
Hybrid Rule-Neural Coreference Resolution System based on Actor-Critic Learning [53.73316523766183]
コアレゾリューションシステムは2つの主要なタスクに取り組む必要がある。ひとつのタスクは、潜在的な言及のすべてを検出することであり、もう1つは、可能な言及ごとに前者のリンクを学習することである。本稿では,アクター・クリティカル・ラーニングに基づく複合ルール・ニューラル・コア参照解決システムを提案する。
論文参考訳（メタデータ） (2022-12-20T08:55:47Z)
Combining multiple matchers for fingerprint verification: A case study in biosecure network of excellence [53.598636960435286]
指紋認証のための2つの参照システムは、追加の2つの非参照システムと共にテストされている。実験結果から, 最適認識戦略は, 栄養素と相関測定の両方が関係していることが示唆された。
論文参考訳（メタデータ） (2022-12-04T19:49:05Z)
On the Limits of Evaluating Embodied Agent Model Generalization Using Validation Sets [101.28658250723804]
本稿では,より広い視野を効果的に活用し,次のステップでナビゲーションや操作を行うかを選択するモジュールによるトランスフォーマーモデルの拡張実験を行う。提案したモジュールは改良され,実際に,一般的なベンチマークデータセットであるALFREDの未確認検証セット上での最先端のパフォーマンスが向上した。この結果は、機械学習タスクではより広い現象かもしれないが、主にテストスプリットの評価を制限するベンチマークでのみ顕著である、と我々は考えているので強調する。
論文参考訳（メタデータ） (2022-05-18T23:52:21Z)
fairlib: A Unified Framework for Assessing and Improving Classification Fairness [66.27822109651757]
Fairlibは、分類の公平さを評価し改善するためのオープンソースのフレームワークである。我々は、前処理、訓練時間、後処理を含む14のデバイアス化手法を実装した。組み込まれたメトリクスは、最も一般的に使用されるフェアネス基準をカバーし、フェアネス評価のためにさらに一般化およびカスタマイズすることができる。
論文参考訳（メタデータ） (2022-05-04T03:50:23Z)
Boost Test-Time Performance with Closed-Loop Inference [85.43516360332646]
そこで本研究では,モデル性能を高めるために,ループ方式でハードクラス化試験サンプルを予測することを提案する。まず、追加の推論ループを必要とするハードクラス化テストサンプルを識別するためにフィルタリング基準を考案する。各ハードサンプルに対して、モデルのキャリブレーションを行うために、元の上位$K$予測に基づいて補助学習タスクを構築する。
論文参考訳（メタデータ） (2022-03-21T10:20:21Z)
Overview of Test Coverage Criteria for Test Case Generation from Finite State Machines Modelled as Directed Graphs [0.12891210250935145]
テストカバレッジ基準は、システムアンダーテストモデルからテストケースを生成する際に、テストエンジニアにとって不可欠な概念です。テストカバレッジ基準は、システムがテストされるアクションや組み合わせの数を定義します。本研究は、有限状態機械の一般的なテストカバレッジ基準をすべて要約し、それらの仮定、等価性、および非互換性について議論した。
論文参考訳（メタデータ） (2022-03-17T20:30:14Z)
Prioritized Variable-length Test Cases Generation for Finite State Machines [0.09786690381850353]
モデルベーステスト(MBT)は、システムアンダーテストの一部が有限状態マシン(FSM)の特性を持つ場合のテストに有効な手法である。本稿では,これらの要件をすべて満たしたテスト生成戦略を提案する。本論文では,FSMの適用状況に応じて,機能的および非機能的ソフトウェア要件のテストにも適用可能である。
論文参考訳（メタデータ） (2022-03-17T20:16:45Z)
Complete Agent-driven Model-based System Testing for Autonomous Systems [0.0]
複雑な自律輸送システムをテストするための新しいアプローチについて述べる。検証と検証に関して最も重大な問題のいくつかを軽減することを目的としている。
論文参考訳（メタデータ） (2021-10-25T01:55:24Z)
Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on Spoken Language Understanding [101.24748444126982]
分解可能なタスクは複雑で、サブタスクの階層から構成される。しかし、既存のベンチマークでは、通常は表面レベルのサブタスクのみの例が示される。サブタスク固有のユーティリティ関数上の座標アセントを用いて、ロバストなテストセットを構築するためのフレームワークを提案する。
論文参考訳（メタデータ） (2021-06-29T02:53:59Z)
Visual Composite Set Detection Using Part-and-Sum Transformers [74.26037922682355]
本稿では,エンドツーエンドのコンポジットセット検出を行うために,PST(Part-and-Sum Detection Transformer)という新しい手法を提案する。 PSTは、カスタムデザインの2段階モデルの結果とほぼ一致しながら、シングルステージモデル間で最先端の結果を達成する。
論文参考訳（メタデータ） (2021-05-05T16:31:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。