論文の概要: Towards a Fault-Injection Benchmarking Suite
- arxiv url: http://arxiv.org/abs/2403.20319v1
- Date: Fri, 29 Mar 2024 17:42:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-01 14:55:26.084703
- Title: Towards a Fault-Injection Benchmarking Suite
- Title(参考訳): フォールトインジェクションベンチマークスイートを目指して
- Authors: Tianhao Wang, Robin Thunig, Horst Schirmeier,
- Abstract要約: フォールトトレランスアプローチを示すためのベンチマークスイートは合意されていない。
代替として、著者は他のドメインからベンチマークを選択する。
ベンチマーク選択の基準を提案する。
- 参考スコア(独自算出の注目度): 2.2373909071130877
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Soft errors in memories and logic circuits are known to disturb program execution. In this context, the research community has been proposing a plethora of fault-tolerance (FT) solutions over the last decades, as well as fault-injection (FI) approaches to test, measure and compare them. However, there is no agreed-upon benchmarking suite for demonstrating FT or FI approaches. As a replacement, authors pick benchmarks from other domains, e.g. embedded systems. This leads to little comparability across publications, and causes behavioral overlap within benchmarks that were not selected for orthogonality in the FT/FI domain. In this paper, we want to initiate a discussion on what a benchmarking suite for the FT/FI domain should look like, and propose criteria for benchmark selection.
- Abstract(参考訳): メモリや論理回路のソフトエラーはプログラムの実行を妨害することが知られている。
この文脈では、研究コミュニティは、過去数十年にわたって多くのフォールトトレランス(FT)ソリューションと、それらをテスト、測定、比較するためのフォールトインジェクション(FI)アプローチを提案してきた。
しかし、FTやFIのアプローチを示すためのベンチマークスイートは合意されていない。
代替として、著者は他のドメイン、例えば組み込みシステムからベンチマークを選択する。
これにより、出版物間での互換性がほとんどなく、FT/FIドメインの直交性のために選択されなかったベンチマーク内での振る舞いの重なりが生じる。
本稿では、FT/FIドメインのベンチマークスイートがどのようなものになるべきかについて議論し、ベンチマーク選択の基準を提案する。
関連論文リスト
- On the Limits of Test-Time Compute: Sequential Reward Filtering for Better Inference [71.09125259964684]
テスト時計算(TTC)は、大規模言語モデル(LLM)の拡張のパラダイムとして、ますます顕著になっている。
本稿では,高次世代のみを文脈に選択的に組み込む単純な手順である報酬フィルタシーケンシャル推論について検討する。
理論的には、報酬フィルタによる逐次推論は標準TTCパラダイムよりも厳密な保証が得られることを示す。
論文 参考訳(メタデータ) (2025-12-04T08:21:33Z) - Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts [49.99400612296149]
強力な視覚的理解なしに、モデルが多くのベンチマークを達成できることがわかりました。
これは視覚的な入力を意図した視覚中心のベンチマークでは特に問題となる。
ベンチマーク設計には診断原則を採用しており、もしベンチマークをゲーム化できれば、それをゲーム化します。
論文 参考訳(メタデータ) (2025-11-06T18:43:21Z) - How Many Code and Test Cases Are Enough? Evaluating Test Cases Generation from a Binary-Matrix Perspective [51.30005925128432]
LLM(Large Language Models)が自動生成するテストケースの評価は、非常に難しい作業です。
既存のベンチマークは高い計算コスト、インフレーションのスコア、稀でクリティカルな欠陥に対する自明なバグに対するバイアスに悩まされている。
本稿では,ベンチマーク構築をバイナリコードテスト行列の最適な診断基準として定式化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T18:29:24Z) - Efficiently Ranking Software Variants with Minimal Benchmarks [7.542554018860094]
テストスイート最適化手法を用いて、安定したランキングを維持しながらベンチマークを削減できる新しい手法を提案する。
つまり、すべてのテストで変種と同じランキングを維持しながら、ベンチマークからインスタンスを削除します。
BISection Smpling(BISection Smpling, BISS)は, 最重要試験を戦略的に保持し, 新規な分別・対数法を適用して, 関連試験を効率的にサンプリングする手法である。
論文 参考訳(メタデータ) (2025-09-08T14:11:35Z) - ODD: Overlap-aware Estimation of Model Performance under Distribution Shift [8.569585481097839]
以前の作業では、分散シフトの下で実際のエラー境界を導出するために、不一致不一致(DIS2)を使用していた。
オーバーラップ・アウェア・ディスレパンシー(ODD)を考案する
ODDベースのバウンダリはドメインオーバラップを推定するためにドメイン分類器を使用し、DIS2よりもターゲット性能を予測します。
論文 参考訳(メタデータ) (2025-06-17T21:05:42Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。
ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。
プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。
この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - Can Search-Based Testing with Pareto Optimization Effectively Cover Failure-Revealing Test Inputs? [2.038863628148453]
我々は,検索領域内の障害発生領域をカバーするには,検索ベースソフトウェアテスト(SBST)が不十分であると主張している。
本研究では,入力空間におけるフェールリベリングテスト入力のカバレッジを,Coverage Inverted Distance品質指標と呼ぶ指標を用いて測定する。
論文 参考訳(メタデータ) (2024-10-15T16:44:40Z) - UniTTA: Unified Benchmark and Versatile Framework Towards Realistic Test-Time Adaptation [66.05528698010697]
Test-Time Adaptationは、テスト中にトレーニング済みのモデルを対象のドメインに適応させることを目的としている。
研究者は様々な挑戦シナリオを特定し、これらの課題に対処するための様々な方法を開発した。
本稿では,包括的かつ広く適用可能な統一テスト時間適応ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:04:53Z) - Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese [3.724862061593193]
従来の検索時拡張世代(RAG)における事実整合性エラーの大きな問題は、FCE(Factual Consistency Evaluation)の研究を動機づけている
我々は,基礎となるLarge Language Models (LLM) に依存しないRAGのための,最初の総合的なFCEベンチマークemphFace4RAGを提案する。
提案するベンチマークでは,既存のFCE手法が論理的誤りを検出できないことを発見した。
論文 参考訳(メタデータ) (2024-07-01T08:35:04Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - Benchmarking Video Frame Interpolation [11.918489436283748]
提案手法は,提案するWebサイトを利用して,一貫したエラーメトリクスを確立するベンチマークである。
また、合成データを利用して線形性の仮定に忠実なテストセットを提案し、コヒーレントな方法で計算効率を評価する。
論文 参考訳(メタデータ) (2024-03-25T19:13:12Z) - Align Your Prompts: Test-Time Prompting with Distribution Alignment for
Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。
提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文 参考訳(メタデータ) (2023-11-02T17:59:32Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Few-shot Fine-tuning is All You Need for Source-free Domain Adaptation [2.837894907597713]
非教師なしドメイン適応(SFUDA)の非教師なしドメイン適応(UDA)に対する実用性について検討する。
SFUDAは、実世界のアプリケーションにおける実用性を制限する未ラベルのターゲットデータに依存していることを示す。
SFUDAの限界を回避するために,ラベル付きデータによる事前学習モデルの微調整を行うことが,実用的で信頼性の高い手法であることを示す。
論文 参考訳(メタデータ) (2023-04-03T08:24:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。