論文の概要: Deep Learning Framework Testing via Heuristic Guidance Based on Multiple Model Measurements
- arxiv url: http://arxiv.org/abs/2507.15181v1
- Date: Mon, 21 Jul 2025 01:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.229013
- Title: Deep Learning Framework Testing via Heuristic Guidance Based on Multiple Model Measurements
- Title(参考訳): 複数のモデル計測に基づくヒューリスティックガイダンスによるディープラーニングフレームワークテスト
- Authors: Yinglong Zou, Juan Zhai, Chunrong Fang, Yanzhou Mu, Jiawei Liu, Zhenyu Chen,
- Abstract要約: DLMMMは、複数のモデル計測をガイダンスに含み、これらの測定結果を融合させてトレードオフを実現するための、最初のディープラーニングフレームワークテスト手法である。
DLMMMはまず、モデルのバグ検出性能、演算子の組み合わせ変数、モデル実行時間を定量的に測定する。
DLMMMは、テスト入力モデル生成のためのマルチレベルガイダンスを設計する。
- 参考スコア(独自算出の注目度): 15.816275151740577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning frameworks serve as the foundation for developing and deploying deep learning applications. To enhance the quality of deep learning frameworks, researchers have proposed numerous testing methods using deep learning models as test inputs. However, existing methods predominantly measure model bug detection effectiveness as heuristic indicators, presenting three critical limitations: Firstly, existing methods fail to quantitatively measure model's operator combination variety, potentially missing critical operator combinations that could trigger framework bugs. Secondly, existing methods neglect measuring model execution time, resulting in the omission of numerous models potential for detecting more framework bugs within limited testing time. Thirdly, existing methods overlook correlation between different model measurements, relying simply on single-indicator heuristic guidance without considering their trade-offs. To overcome these limitations, we propose DLMMM, the first deep learning framework testing method to include multiple model measurements into heuristic guidance and fuse these measurements to achieve their trade-off. DLMMM firstly quantitatively measures model's bug detection performance, operator combination variety, and model execution time. After that, DLMMM fuses the above measurements based on their correlation to achieve their trade-off. To further enhance testing effectiveness, DLMMM designs multi-level heuristic guidance for test input model generation.
- Abstract(参考訳): ディープラーニングフレームワークは、ディープラーニングアプリケーションの開発とデプロイの基盤として機能する。
ディープラーニングフレームワークの品質を高めるために、ディープラーニングモデルをテスト入力として利用する多数のテスト手法が提案されている。
しかし、既存のメソッドは主にモデルバグ検出の有効性をヒューリスティックな指標として測定し、以下の3つの重要な制限を提示する。
第二に、既存のメソッドはモデルの実行時間を無視するので、限られたテスト時間内でより多くのフレームワークバグを検出する可能性のあるモデルが無くなった。
第3に、既存の手法は、トレードオフを考慮せずに、単に単一指標ヒューリスティックガイダンスに頼るだけで、異なるモデル測定間の相関性を見落としている。
これらの制限を克服するため,本研究では,複数のモデル計測をヒューリスティックガイダンスに含め,これらの測定を融合させてトレードオフを実現するための,最初のディープラーニングフレームワークテスト手法であるDLMMMを提案する。
DLMMMはまず、モデルのバグ検出性能、演算子の組み合わせ変数、モデル実行時間を定量的に測定する。
その後、DLMMMはそれらの相関に基づいて上記の測定結果を融合し、トレードオフを達成する。
DLMMMは,テスト入力モデル生成のためのマルチレベルヒューリスティックガイダンスを設計した。
関連論文リスト
- Teach2Eval: An Indirect Evaluation Method for LLM by Judging How It Teaches [46.0474342507327]
Feynman Techniqueにインスパイアされた間接評価フレームワークであるTeach2Evalを紹介する。
本手法は、より弱い学生モデルにタスクを効果的に実行させるためのモデルの複数の能力を評価する。
論文 参考訳(メタデータ) (2025-05-18T06:51:10Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - Forgetting Curve: A Reliable Method for Evaluating Memorization Capability for Long-context Models [58.6172667880028]
長文モデルの暗記能力を測定するために,左折曲線と呼ばれる新しい手法を提案する。
テストコーパスと実験環境に頑健であることの利点を, 忘れる曲線は有益であることを示す。
本測定は,RNN/SSMモデルの有効性を疑問視しながら,トランスフォーマー拡張手法の有効性を示す実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-10-07T03:38:27Z) - EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - Semi-Supervised Model-Free Bayesian State Estimation from Compressed Measurements [57.04370580292727]
圧縮測定によるベイズ状態の推定について考察する。
時間的測定ベクトルの寸法は、推定される時間的状態ベクトルの寸法よりも小さい。
状態の進化の基盤となる力学モデルは「モデルフリープロセス」では未知数である。
論文 参考訳(メタデータ) (2024-07-10T05:03:48Z) - STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient Fine-Tuning of Large Language Models [21.929902181609936]
我々は不確実性に基づくアクティブラーニングとLoRAを統合する新しい手法を提案する。
不確実性ギャップについて、ベースモデルの不確実性とフルモデルの不確実性を組み合わせた動的不確実性測定を導入する。
モデルのキャリブレーションが不十分な場合、LoRAトレーニング中に正規化手法を導入し、モデルが過度に信頼されないようにする。
論文 参考訳(メタデータ) (2024-03-02T10:38:10Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - A Deep Learning Method for Comparing Bayesian Hierarchical Models [1.6736940231069393]
本稿では,任意の階層モデルに対してベイズモデルの比較を行う深層学習手法を提案する。
提案手法は,任意の実データアプリケーションに先立って,後続モデル確率の効率的な再推定と高速な性能検証を可能にする。
論文 参考訳(メタデータ) (2023-01-27T17:27:07Z) - A Typology for Exploring the Mitigation of Shortcut Behavior [29.38025128165229]
基本モジュールの共通集合を確立することにより,様々なXIL手法を単一型に統一する。
評価では、全ての手法がモデルの再検討を成功に導く。
しかし、個々のベンチマークタスクに顕著な違いが見られ、アプリケーションに関連する重要な側面が明らかになりました。
論文 参考訳(メタデータ) (2022-03-04T14:16:50Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - MM-FSOD: Meta and metric integrated few-shot object detection [14.631208179789583]
メトリクス学習とメタラーニングを統合した効果的なオブジェクト検出フレームワーク(MM-FSOD)を提案する。
我々のモデルは、トレーニングサンプルにない新しいカテゴリを正確に認識できるクラスに依存しない検出モデルである。
論文 参考訳(メタデータ) (2020-12-30T14:02:52Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。