論文の概要: Towards a Fault-Injection Benchmarking Suite
- arxiv url: http://arxiv.org/abs/2403.20319v1
- Date: Fri, 29 Mar 2024 17:42:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 14:55:26.084703
- Title: Towards a Fault-Injection Benchmarking Suite
- Title(参考訳): フォールトインジェクションベンチマークスイートを目指して
- Authors: Tianhao Wang, Robin Thunig, Horst Schirmeier,
- Abstract要約: フォールトトレランスアプローチを示すためのベンチマークスイートは合意されていない。
代替として、著者は他のドメインからベンチマークを選択する。
ベンチマーク選択の基準を提案する。
- 参考スコア(独自算出の注目度): 2.2373909071130877
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Soft errors in memories and logic circuits are known to disturb program execution. In this context, the research community has been proposing a plethora of fault-tolerance (FT) solutions over the last decades, as well as fault-injection (FI) approaches to test, measure and compare them. However, there is no agreed-upon benchmarking suite for demonstrating FT or FI approaches. As a replacement, authors pick benchmarks from other domains, e.g. embedded systems. This leads to little comparability across publications, and causes behavioral overlap within benchmarks that were not selected for orthogonality in the FT/FI domain. In this paper, we want to initiate a discussion on what a benchmarking suite for the FT/FI domain should look like, and propose criteria for benchmark selection.
- Abstract(参考訳): メモリや論理回路のソフトエラーはプログラムの実行を妨害することが知られている。
この文脈では、研究コミュニティは、過去数十年にわたって多くのフォールトトレランス(FT)ソリューションと、それらをテスト、測定、比較するためのフォールトインジェクション(FI)アプローチを提案してきた。
しかし、FTやFIのアプローチを示すためのベンチマークスイートは合意されていない。
代替として、著者は他のドメイン、例えば組み込みシステムからベンチマークを選択する。
これにより、出版物間での互換性がほとんどなく、FT/FIドメインの直交性のために選択されなかったベンチマーク内での振る舞いの重なりが生じる。
本稿では、FT/FIドメインのベンチマークスイートがどのようなものになるべきかについて議論し、ベンチマーク選択の基準を提案する。
関連論文リスト
- Can Search-Based Testing with Pareto Optimization Effectively Cover Failure-Revealing Test Inputs? [2.038863628148453]
我々は,検索領域内の障害発生領域をカバーするには,検索ベースソフトウェアテスト(SBST)が不十分であると主張している。
本研究では,入力空間におけるフェールリベリングテスト入力のカバレッジを,Coverage Inverted Distance品質指標と呼ぶ指標を用いて測定する。
論文 参考訳(メタデータ) (2024-10-15T16:44:40Z) - UniTTA: Unified Benchmark and Versatile Framework Towards Realistic Test-Time Adaptation [66.05528698010697]
Test-Time Adaptationは、テスト中にトレーニング済みのモデルを対象のドメインに適応させることを目的としている。
研究者は様々な挑戦シナリオを特定し、これらの課題に対処するための様々な方法を開発した。
本稿では,包括的かつ広く適用可能な統一テスト時間適応ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:04:53Z) - Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese [3.724862061593193]
従来の検索時拡張世代(RAG)における事実整合性エラーの大きな問題は、FCE(Factual Consistency Evaluation)の研究を動機づけている
我々は,基礎となるLarge Language Models (LLM) に依存しないRAGのための,最初の総合的なFCEベンチマークemphFace4RAGを提案する。
提案するベンチマークでは,既存のFCE手法が論理的誤りを検出できないことを発見した。
論文 参考訳(メタデータ) (2024-07-01T08:35:04Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - Benchmarking Video Frame Interpolation [11.918489436283748]
提案手法は,提案するWebサイトを利用して,一貫したエラーメトリクスを確立するベンチマークである。
また、合成データを利用して線形性の仮定に忠実なテストセットを提案し、コヒーレントな方法で計算効率を評価する。
論文 参考訳(メタデータ) (2024-03-25T19:13:12Z) - Align Your Prompts: Test-Time Prompting with Distribution Alignment for
Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。
提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文 参考訳(メタデータ) (2023-11-02T17:59:32Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Few-shot Fine-tuning is All You Need for Source-free Domain Adaptation [2.837894907597713]
非教師なしドメイン適応(SFUDA)の非教師なしドメイン適応(UDA)に対する実用性について検討する。
SFUDAは、実世界のアプリケーションにおける実用性を制限する未ラベルのターゲットデータに依存していることを示す。
SFUDAの限界を回避するために,ラベル付きデータによる事前学習モデルの微調整を行うことが,実用的で信頼性の高い手法であることを示す。
論文 参考訳(メタデータ) (2023-04-03T08:24:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。