Fugu-MT 論文翻訳(概要): A Tale of Two DL Cities: When Library Tests Meet Compiler

論文の概要: A Tale of Two DL Cities: When Library Tests Meet Compiler

arxiv url: http://arxiv.org/abs/2407.16626v2
Date: Wed, 14 Aug 2024 14:25:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 17:26:11.309418
Title: A Tale of Two DL Cities: When Library Tests Meet Compiler
Title（参考訳）: 2つのDLシティの物語:ライブラリーテストがコンパイラに遭遇した時
Authors: Qingchao Shen, Yongqiang Tian, Haoyang Ma, Junjie Chen, Lili Huang, Ruifeng Fu, Shing-Chi Cheung, Zan Wang,
Abstract要約: DLライブラリのテスト入力からドメイン知識を抽出するOPERAを提案する。 OPERAはDLライブラリの様々なテストインプットから様々なテストを構築する。多様性に基づくテストの優先順位付け戦略を取り入れて、これらのテストインプットを移行し実行します。
参考スコア（独自算出の注目度）: 12.751626834965231
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep Learning (DL) compilers typically load a DL model and optimize it with intermediate representation.Existing DL compiler testing techniques mainly focus on model optimization stages, but rarely explore bug detection at the model loading stage. Effectively testing the model loading stage requires covering diverse usages of each DL operator from various DL libraries, which shares a common objective with DL library testing, indicating that the embedded knowledge in DL library tests is beneficial for testing the model loading stage of DL compilers. In this work, we propose OPERA to extract such domain knowledge from the test inputs for DL libraries. OPERA constructs diverse tests from the various test inputs for DL libraries (including the test inputs documented in DL libraries and those generated by recent fuzzers). In addition, it incorporates a diversity-based test prioritization strategy to migrate and execute those test inputs that are more likely to detect diverse bugs earlier. We considered three sources of tests in DL libraries for migration and used eight frontends from three DL compilers (e.g., TVM, TensorRT, and OpenVINO) for evaluation. OPERA detected 170 previously unknown bugs in total, 90 of which have been confirmed/fixed by developers, demonstrating the effectiveness of such the migration-based idea. The test prioritization strategy in OPERA improves testing efficiency with migrated tests by 11.9%~47.4% on average compared to general test prioritization strategies.
Abstract（参考訳）: DL(Deep Learning)コンパイラは通常、DLモデルをロードして中間表現で最適化するが、既存のDLコンパイラテスト技術は主にモデルの最適化段階に焦点を当てているが、モデルローディング段階でバグ検出を検討することはめったにない。モデルローディングステージを効果的にテストするには、DLライブラリテストと共通の目的を共有し、DLライブラリテストに組み込まれた知識が、DLコンパイラのモデルローディングステージをテストするのに有用であることを示している。本稿では,DLライブラリのテストインプットから,そのようなドメイン知識を抽出するOPERAを提案する。 OPERAは、DLライブラリの様々なテストインプット(DLライブラリで文書化されたテストインプットや、最近のファズーによって生成されたテストインプットを含む)から様々なテストを構築する。さらに、多様なバグを早期に検出する可能性が高いテストインプットを移行して実行する、多様性ベースのテスト優先順位付け戦略も組み込まれている。我々は,DLライブラリの3つのソースについて検討し,3つのDLコンパイラ(例えば,TVM,TensorRT,OpenVINO)から8つのフロントエンドを用いて評価を行った。 OPERAは、合計で170の既知のバグを検出し、90のバグが開発者によって確認・修正され、そのような移行ベースのアイデアの有効性が実証された。 OPERAのテスト優先戦略は、一般的なテスト優先戦略と比較して、移行テストによるテスト効率を平均で11.9%〜47.4%向上させる。

関連論文リスト

Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
LlamaRestTest: Effective REST API Testing with Small Language Models [50.058600784556816]
LlamaRestTestは、2つのLLM(Large Language Models)を使って現実的なテストインプットを生成する新しいアプローチである。私たちは、GPTを使った仕様強化ツールであるRESTGPTなど、最先端のREST APIテストツールに対して、これを評価しています。私たちの研究は、REST APIテストにおいて、小さな言語モデルは、大きな言語モデルと同様に、あるいは、より良く機能することができることを示しています。
論文参考訳（メタデータ） (2025-01-15T05:51:20Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文参考訳（メタデータ） (2024-08-29T12:34:01Z)
LLMBox: A Comprehensive Library for Large Language Models [109.15654830320553]
本稿では,大規模言語モデル (LLM) の開発, 使用, 評価を容易にするために, 包括的で統一されたライブラリ LLMBox を提案する。このライブラリには,(1)多様なトレーニング戦略の柔軟な実装を支援する統一データインターフェース,(2)広範囲なタスクやデータセット,モデルをカバーする包括的な評価,(3)ユーザフレンドリさや効率性など,より実践的な考慮,という3つのメリットがある。
論文参考訳（メタデータ） (2024-07-08T02:39:33Z)
DLLens: Testing Deep Learning Libraries via LLM-aided Synthesis [8.779035160734523]
テストは、ディープラーニング(DL)ライブラリの品質を保証するための主要なアプローチである。既存のテスト技術では、テストオラクルの構築を緩和するために差分テストを採用するのが一般的である。本稿では,DLライブラリテストのための新しい差分試験手法であるシーレンスを紹介する。
論文参考訳（メタデータ） (2024-06-12T07:06:38Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
A Survey of Deep Learning Library Testing Methods [33.62859142913532]
ディープラーニング(DL)ライブラリは、基礎となる最適化と計算を行う。 DLライブラリはバグに免疫がなく、ユーザの個人資産や安全性に深刻な脅威をもたらす可能性がある。本稿では,各種DLライブラリに関する試験研究の概要について述べる。
論文参考訳（メタデータ） (2024-04-27T11:42:13Z)
Beyond Accuracy: An Empirical Study on Unit Testing in Open-source Deep Learning Projects [24.712437703214547]
ディープラーニング(DL)モデルは急速に進歩し、モデルの精度と堅牢性をテストすることによって高いパフォーマンスを達成することに重点を置いている。 DLプロジェクトは、ソフトウェアシステムとして、他のソフトウェアシステムのように扱い、テストする必要がある場合、徹底的にテストされるか、機能的に正しいかは定かではない。オープンソースのDLプロジェクトでユニットテストを経験的に研究し、GitHubから9,129のプロジェクトを分析しました。
論文参考訳（メタデータ） (2024-02-26T13:08:44Z)
Align Your Prompts: Test-Time Prompting with Distribution Alignment for Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文参考訳（メタデータ） (2023-11-02T17:59:32Z)
ACETest: Automated Constraint Extraction for Testing Deep Learning Operators [23.129431525952263]
テストケースが入力妥当性チェックをパスし、演算子のコア関数ロジックに到達できることが不可欠である。既存のテクニックは、制約を抽出するために、DLライブラリAPIの人的努力またはドキュメントに依存する。本研究では,コードから入力検証制約を自動的に抽出し,有効かつ多様なテストケースを構築する技術であるACETestを提案する。
論文参考訳（メタデータ） (2023-05-29T06:49:40Z)
Pre-trained Embeddings for Entity Resolution: An Experimental Analysis [Experiment, Analysis & Benchmark] [65.11858854040544]
我々は、17の確立されたベンチマークデータセットに対して、12のポピュラー言語モデルの徹底的な実験分析を行う。まず、全ての入力エンティティを高密度な埋め込みベクトルに変換するためのベクトル化のオーバーヘッドを評価する。次に,そのブロッキング性能を調査し,詳細なスケーラビリティ解析を行い,最先端のディープラーニングベースのブロッキング手法と比較する。第3に、教師なしマッチングと教師なしマッチングの両方に対して、相対的な性能で締めくくります。
論文参考訳（メタデータ） (2023-04-24T08:53:54Z)
MEMO: Coverage-guided Model Generation For Deep Learning Library Testing [11.263121366956726]
テスト入力としてDLモデルを生成することによって、ディープラーニング(DL)ライブラリをテストするためのいくつかの技術が提案されている。しかし、これらの手法のテストの有効性は、生成されたDLモデルの多様性によって制約される。本稿では,レイヤタイプ,層ペア,層パラメータを探索することにより,多様なDLモデルを効率的に生成するMEMOを提案する。
論文参考訳（メタデータ） (2022-08-02T14:53:02Z)
The MultiBERTs: BERT Reproductions for Robustness Analysis [86.29162676103385]
事前トレーニングの再実行は、パフォーマンスに関して、かなり異なる結論をもたらす可能性がある。我々は25個のBERTベースのチェックポイントの集合であるMultiBERTを紹介する。目標は、研究者が事前訓練の手順について、堅牢で統計的に正当化された結論を描けるようにすることである。
論文参考訳（メタデータ） (2021-06-30T15:56:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。