Fugu-MT 論文翻訳(概要): A Benchmark Generator for Combinatorial Testing

論文の概要: A Benchmark Generator for Combinatorial Testing

arxiv url: http://arxiv.org/abs/2301.08134v2
Date: Tue, 24 Jan 2023 09:06:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-29 13:58:10.370945
Title: A Benchmark Generator for Combinatorial Testing
Title（参考訳）: 組合せテストのためのベンチマークジェネレータ
Authors: Carlos Ansotegui and Eduard Torres
Abstract要約: Combinatorial Testing (CT)ツールは、幅広いシステムの適切なテストに不可欠である。我々は、利用可能なコンビニアル問題の多くに含まれる構造を基本的に借用する、CTベンチマークの新しいジェネレータを導入する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Combinatorial Testing (CT) tools are essential to test properly a wide range of systems (train systems, Graphical User Interfaces (GUIs), autonomous driving systems, etc). While there is an active research community working on developing CT tools, paradoxically little attention has been paid to making available enough resources to test the CT tools themselves. In particular, the set of available benchmarks to asses their correctness, effectiveness and efficiency is rather limited. In this paper, we introduce a new generator of CT benchmarks that essentially borrows the structure contained in the plethora of available Combinatorial Problems from other research communities in order to create meaningful benchmarks. We additionally perform an extensive evaluation of CT tools with these new benchmarks. Thanks to this study we provide some insights on under which circumstances a particular CT tool should be used.
Abstract（参考訳）: Combinatorial Testing(CT)ツールは、幅広いシステム(トレインシステム、グラフィカルユーザインタフェース(GUI)、自律運転システムなど)を適切にテストするために不可欠である。 CTツールの開発には活発な研究コミュニティがあるが、CTツール自体をテストするのに十分なリソースを提供するには、パラドックス的にはほとんど注意が払われていない。特に、その正確性、有効性、効率性を示す利用可能なベンチマークのセットは、かなり限られている。本稿では,他の研究コミュニティが有意義なベンチマークを作成するために,利用可能なコンビネータ問題の多くに含まれる構造を,基本的に借用するCTベンチマークの新たなジェネレータを提案する。また,これらのベンチマークを用いてCTツールの広範な評価を行う。本研究により,特定のCTツールの使用状況について,いくつかの知見が得られた。

関連論文リスト

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。 AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文参考訳（メタデータ） (2026-01-26T16:04:43Z)
Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts [49.99400612296149]
強力な視覚的理解なしに、モデルが多くのベンチマークを達成できることがわかりました。これは視覚的な入力を意図した視覚中心のベンチマークでは特に問題となる。ベンチマーク設計には診断原則を採用しており、もしベンチマークをゲーム化できれば、それをゲーム化します。
論文参考訳（メタデータ） (2025-11-06T18:43:21Z)
ToolHaystack: Stress-Testing Tool-Augmented Language Models in Realistic Long-Term Interactions [9.825432101000358]
ToolHaystackは、長期的なインタラクションにおけるツール使用機能をテストするためのベンチマークです。各テストインスタンスは、連続的な会話の中で複数のタスクの実行コンテキストと現実的なノイズを含む。現在のモデルでは、標準的なマルチターン設定ではうまく機能しますが、ToolHaystackではかなり苦労しています。
論文参考訳（メタデータ） (2025-05-29T17:10:12Z)
T^2Agent A Tool-augmented Multimodal Misinformation Detection Agent with Monte Carlo Tree Search [51.91311158085973]
多重モーダル誤報は、しばしば混合偽造源から発生し、動的推論と適応的検証を必要とする。我々はモンテカルロ木探索を用いたツールキットを組み込んだ新しい誤情報検出剤T2Agentを提案する。大規模な実験により、T2Agentは、混在するマルチモーダル誤報ベンチマークにおいて、既存のベースラインを一貫して上回っていることが示されている。
論文参考訳（メタデータ） (2025-05-26T09:50:55Z)
CUB: Benchmarking Context Utilisation Techniques for Language Models [45.8076254147699]
言語モデル(LM)は、時代遅れのパラメトリックメモリと矛盾する関連情報を無視したり、無関係なコンテキストに邪魔されることがある。 CUB(Context Utilisation Benchmark)は、実践者が必要に応じて最適なCMTを特定するのに役立つ。
論文参考訳（メタデータ） (2025-05-22T10:57:08Z)
Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models [8.573278807410507]
ツール学習は、大きな言語モデル(LLM)の使用シナリオをさらに広げることができる。本稿では,新しいツール学習手法であるChain-of-Toolsを提案する。 CoT推論でツール呼び出しを終了するために、フリーズLDMの強力なセマンティック表現機能をフル活用する。
論文参考訳（メタデータ） (2025-03-21T01:26:12Z)
MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models [66.64809260956312]
MTU-Benchと呼ばれる大規模言語モデルのための多言語ツール使用ベンチマークを提案する。私たちのMTU-Benchは、既存の高品質データセットを変換して、実際のツール使用シナリオをシミュレートすることで収集されます。 MTU-Bench の総合的な実験結果から, MTU-Bench の有効性が示唆された。
論文参考訳（メタデータ） (2024-10-15T15:46:17Z)
OCTrack: Benchmarking the Open-Corpus Multi-Object Tracking [63.53176412315835]
オープンコーパス多対象追跡(OCMOT)の新たな実用的課題について検討する。我々は,OCMOT問題に対する標準評価プラットフォームを提供するために,大規模かつ包括的なベンチマークであるOCTrackBを構築した。
論文参考訳（メタデータ） (2024-07-19T05:58:01Z)
Benchmarking Predictive Coding Networks -- Made Simple [48.652114040426625]
機械学習における予測符号化ネットワーク(PCN)の効率性とスケーラビリティの問題に取り組む。そこで我々は,PCXと呼ばれる,パフォーマンスと簡易性を重視したライブラリを提案する。我々は,PCNの既存アルゴリズムと,生物工学的な深層学習コミュニティで普及している他の手法を併用して,このようなベンチマークを広範囲に実施する。
論文参考訳（メタデータ） (2024-07-01T10:33:44Z)
Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文参考訳（メタデータ） (2024-05-25T06:41:23Z)
FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [70.6584488911715]
検索増強世代(RAG)は、かなりの研究関心を集めている。既存のRAGツールキットは、しばしば重くて柔軟であり、研究者のカスタマイズのニーズを満たすことができない。我々のツールキットは16の高度なRAGメソッドを実装し、38のベンチマークデータセットを収集し、整理した。
論文参考訳（メタデータ） (2024-05-22T12:12:40Z)
TABSurfer: a Hybrid Deep Learning Architecture for Subcortical Segmentation [13.819317236131393]
TABSurferは3DパッチベースのCNN-Transformerハイブリッド深層学習モデルである。評価のために、まず、さまざまなT1w MRIデータセットにまたがるTABSurferの一貫性性能を、FreeSurferと比較して大幅に短い処理時間で示す。各テストでは、主要なディープラーニングベンチマークであるFastSurferVINNに対して、TABSurferのアドバンテージを確立します。
論文参考訳（メタデータ） (2023-12-13T16:29:28Z)
Design, implementation, and validation of a benchmark generator for combinatorial interaction testing tools [0.29008108937701327]
組合せテストはソフトウェアの欠陥を効率的に検出する手法として広く採用されている。テストジェネレータの品質は、効果的なテストカバレッジを達成する上で重要な役割を果たす。テストジェネレータが使用するベンチマークのジェネレータであるBenCIGenを紹介する。
論文参考訳（メタデータ） (2023-11-06T10:44:48Z)
CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal Reasoning [107.81733977430517]
CausalVLR(Causal Visual-Linguistic Reasoning)は、最先端の因果関係の発見と因果推論方法の豊富なセットを含むオープンソースのツールボックスである。これらのメソッドはNVIDIAコンピューティングシステムの下でPyTorchを実装したツールボックスに含まれている。
論文参考訳（メタデータ） (2023-06-30T08:17:38Z)
MultiTool-CoT: GPT-3 Can Use Multiple External Tools with Chain of Thought Prompting [23.607534241574346]
推論過程において,計算機や知識検索などの外部ツールを組み込んだMultiTool-CoTを提案する。 NumGLUEのタスク2データセットにMultiTool-CoTを適用し,数値推論とドメイン固有知識の両方を必要とする。
論文参考訳（メタデータ） (2023-05-26T13:00:58Z)
Benchopt: Reproducible, efficient and collaborative optimization benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。 Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文参考訳（メタデータ） (2022-06-27T16:19:24Z)
The Linear Arrangement Library. A new tool for research on syntactic dependency structures [1.611401281366893]
新たなオープンソースツールであるLinear Arrangement Library(LAL)について紹介する。 LALは、特に経験の浅いプログラマのニーズに応える。単一の構文依存構造、ツリーバンク、ツリーバンクの収集に関するメトリクスの計算を可能にする。
論文参考訳（メタデータ） (2021-12-05T08:48:52Z)
HiRID-ICU-Benchmark -- A Comprehensive Machine Learning Benchmark on High-resolution ICU Data [0.8418021941792283]
ICU関連タスクの幅広い範囲をカバーするベンチマークの提供を目指している。 HiRIDデータセットを用いて,臨床医とのコラボレーションによって開発された複数の臨床関連タスクを定義した。我々は,このタイプのデータに対する深層学習アプローチのいくつかの制限を強調し,現在最先端のシーケンスモデリング手法を詳細に分析する。
論文参考訳（メタデータ） (2021-11-16T15:06:42Z)
ALT-MAS: A Data-Efficient Framework for Active Testing of Machine Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文参考訳（メタデータ） (2021-04-11T12:14:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。