Fugu-MT 論文翻訳(概要): An Exploratory Study on Automatic Identification of Assumptions in the Development of Deep Learning Frameworks

論文の概要: An Exploratory Study on Automatic Identification of Assumptions in the Development of Deep Learning Frameworks

arxiv url: http://arxiv.org/abs/2401.03653v6
Date: Sun, 06 Oct 2024 08:46:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 22:32:36.782724
Title: An Exploratory Study on Automatic Identification of Assumptions in the Development of Deep Learning Frameworks
Title（参考訳）: 深層学習フレームワーク開発における推定量の自動同定に関する探索的研究
Authors: Chen Yang, Peng Liang, Zinan Ma,
Abstract要約: 既存の仮定管理のためのアプローチとツールは通常、仮定のマニュアル識別に依存する。本研究は,開発者とユーザの観点から,仮定を識別する目的で,異なる分類モデルを評価することを目的とする。
参考スコア（独自算出の注目度）: 3.457512613793633
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Stakeholders constantly make assumptions in the development of deep learning (DL) frameworks. These assumptions are related to various types of software artifacts (e.g., requirements, design decisions, and technical debt) and can turn out to be invalid, leading to system failures. Existing approaches and tools for assumption management usually depend on manual identification of assumptions. However, assumptions are scattered in various sources (e.g., code comments, commits, pull requests, and issues) of DL framework development, and manually identifying assumptions has high costs. This study intends to evaluate different classification models for the purpose of identification with respect to assumptions from the point of view of developers and users in the context of DL framework projects (i.e., issues, pull requests, and commits) on GitHub. First, we constructed a new and largest dataset (i.e., the AssuEval dataset) of assumptions collected from the TensorFlow and Keras repositories on GitHub. Then we explored the performance of seven non-transformers based models (e.g., Support Vector Machine, Classification and Regression Trees), the ALBERT model, and three decoder-only models (i.e., ChatGPT, Claude, and Gemini) for identifying assumptions on the AssuEval dataset. The study results show that ALBERT achieves the best performance (f1-score: 0.9584) for identifying assumptions on the AssuEval dataset, which is much better than the other models (the 2nd best f1-score is 0.8858, achieved by the Claude 3.5 Sonnet model). Though ChatGPT, Claude, and Gemini are popular models, we do not recommend using them to identify assumptions in DL framework development because of their low performance. Fine-tuning ChatGPT, Claude, Gemini, or other language models (e.g., Llama3, Falcon, and BLOOM) specifically for assumptions might improve their performance for assumption identification.
Abstract（参考訳）: ステークホルダは、ディープラーニング(DL)フレームワークの開発において、常に仮定を行います。これらの仮定は、さまざまな種類のソフトウェアアーティファクト(要件、設計決定、技術的負債など)に関連しており、結果として無効になり、システム障害につながる可能性がある。既存の仮定管理のためのアプローチとツールは通常、仮定のマニュアル識別に依存する。しかし、仮定はDLフレームワークの開発の様々なソース(例えば、コードコメント、コミット、プルリクエスト、問題)に散在しており、手動で仮定を特定することはコストが高い。この研究は、GitHub上のDLフレームワークプロジェクト(イシュー、プルリクエスト、コミット)のコンテキストにおいて、開発者とユーザの視点で仮定を識別するために異なる分類モデルを評価することを目的としている。まず、GitHubのTensorFlowとKerasリポジトリから収集された仮定の新しい最大データセット(AssuEvalデータセット)を構築しました。次に、AssuEvalデータセット上の仮定を特定するために、7つの非トランスフォーマーベースモデル(例えば、サポートベクトルマシン、分類と回帰ツリー)、ALBERTモデル、および3つのデコーダのみモデル(ChatGPT、Claude、Gemini)の性能を調査した。その結果、ALBERT は他のモデルよりもはるかに優れた AssuEval データセットの仮定を特定するための最高の性能 (f1-score: 0.9584) を達成している(第2の最良の f1-score は Claude 3.5 Sonnet モデルによって達成された 0.8858 である)。 ChatGPT、Claude、Geminiは人気のあるモデルですが、低パフォーマンスのため、DLフレームワーク開発における仮定を特定するためにそれらを使用することは推奨しません。仮定のための微調整ChatGPT、Claude、Gemini、その他の言語モデル(例えば、Llama3、Falcon、BLOOM)は、仮定の特定のために性能を改善する可能性がある。

関連論文リスト

OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.15402517835137]
教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
論文参考訳（メタデータ） (2025-04-02T17:50:31Z)
Why Personalizing Deep Learning-Based Code Completion Tools Matters [55.39571645315926]
2つの組織(ApacheとSpring)から136人の開発者、2つのモデルアーキテクチャ(T5とCode Llama)、3つのモデルサイズ(60M、750M、および7Bのトレーニング可能なパラメータ)を考える。 Code Llamaモデル(7B)では、すでにトレーニング済みのモデルのパフォーマンスをオンラインで公開し、同じモデルを組織や開発者固有のデータセットに基づいて微調整しました。以上の結果から,組織別および開発者別追加微調整による予測能力の向上が示唆された。
論文参考訳（メタデータ） (2025-03-18T12:26:06Z)
Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文参考訳（メタデータ） (2024-12-12T21:29:00Z)
How Certain are Uncertainty Estimates? Three Novel Earth Observation Datasets for Benchmarking Uncertainty Quantification in Machine Learning [15.306338199978269]
不確実性定量化(UQ)は、地球観測(EO)製品の信頼性を評価するために不可欠である。機械学習モデルには様々なUQ方法が存在するが、EOデータセットのパフォーマンスはほとんど評価されていない。この記事では、EO機械学習モデルでUQ用に特別に設計された3つのベンチマークデータセットを紹介する。
論文参考訳（メタデータ） (2024-12-09T12:50:27Z)
High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。 2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-09-10T08:04:11Z)
A Comprehensive Benchmark of Machine and Deep Learning Across Diverse Tabular Datasets [0.6144680854063939]
本稿では,Deep Learningモデルが優れているデータセットのタイプを特徴付けるためのベンチマークを紹介する。我々は回帰タスクと分類タスクを含む20の異なるモデルで111のデータセットを評価した。このベンチマークの結果に基づいて、我々は、DLモデルが86.1%の精度で代替手法より優れているシナリオを予測するモデルを訓練する。
論文参考訳（メタデータ） (2024-08-27T06:58:52Z)
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。このサンドボックスは包括的な実験プラットフォームを提供し、データとモデルの両方の迅速なイテレーションと洞察駆動による改善を可能にする。また、徹底的なベンチマークから得られた実りある洞察を明らかにし、データ品質、多様性、モデル行動の間の重要な相互作用に光を当てています。
論文参考訳（メタデータ） (2024-07-16T14:40:07Z)
A New Learning Paradigm for Foundation Model-based Remote Sensing Change Detection [54.01158175996638]
変化検出(CD)は、土地被覆の動的過程を観察し解析するための重要な課題である。本稿では,基盤モデルに基づくCD適応フレームワークであるBi-Temporal Adapter Network (BAN)を提案する。
論文参考訳（メタデータ） (2023-12-02T15:57:17Z)
Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文参考訳（メタデータ） (2023-10-26T17:59:46Z)
Assessing and Enhancing the Robustness of Large Language Models with Task Structure Variations for Logical Reasoning [25.496627355906966]
我々は「ReClor-plus」、「LogiQA-plus」、「LogiQAv2-plus」という3つの新しい論理推論データセットを開発した。実験により、これらの単純な拡張がモデルの性能を著しく損なうことが示されている。微調整とプロンプトのためのロジック駆動型データ拡張の適用は、識別モデルと生成モデルの両方における一般化を促進することができる。
論文参考訳（メタデータ） (2023-10-13T22:29:15Z)
Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文参考訳（メタデータ） (2023-05-23T12:05:09Z)
An Empirical Study of Deep Learning Models for Vulnerability Detection [4.243592852049963]
我々は、広く使われている2つの脆弱性検出データセット上で、最先端の9つのディープラーニングモデルを調査し、再現した。モデル能力,トレーニングデータ,モデル解釈について検討した。我々の研究結果は、モデル結果の理解を深め、トレーニングデータ作成のガイダンスを提供し、モデルの堅牢性を向上させるのに役立つ。
論文参考訳（メタデータ） (2022-12-15T19:49:34Z)
Deep Learning Models for Knowledge Tracing: Review and Empirical Evaluation [2.423547527175807]
我々は,オープンで広く利用されているデータセットを用いた深層学習知識追跡(DLKT)モデルをレビューし,評価する。評価されたDLKTモデルは、以前報告した結果の再現性と評価のために再実装されている。
論文参考訳（メタデータ） (2021-12-30T14:19:27Z)
When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。精度を向上させるために,2つの軽量モジュールを提案する。 DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。 QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文参考訳（メタデータ） (2021-05-27T13:51:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。