Fugu-MT 論文翻訳(概要): An exploratory study on automatic identification of assumptions in the development of deep learning frameworks

論文の概要: An exploratory study on automatic identification of assumptions in the development of deep learning frameworks

arxiv url: http://arxiv.org/abs/2401.03653v2
Date: Wed, 10 Jan 2024 00:46:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-11 11:46:28.772604
Title: An exploratory study on automatic identification of assumptions in the development of deep learning frameworks
Title（参考訳）: ディープラーニングフレームワーク開発における仮定の自動識別に関する探索的研究
Authors: Chen Yang, Peng Liang, Zinan Ma
Abstract要約: 既存の仮定管理のためのアプローチとツールは通常、仮定のマニュアル識別に依存する。手動で仮定を識別する問題を克服するため、GitHub上のリポジトリから収集された仮定の新しい最大データセット(AssuEval)を構築しました。 AlBERTは、AssuEvalデータセット上の仮定を特定する最高のパフォーマンス(f1スコア: 0.9584)を達成する。
参考スコア（独自算出の注目度）: 3.8858976837255303
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Stakeholders constantly make assumptions in the development of deep learning (DL) frameworks. These assumptions are related to various types of software artifacts (e.g., requirements, design decisions, and technical debt) and can turn out to be invalid, leading to system failures. Existing approaches and tools for assumption management usually depend on manual identification of assumptions. However, assumptions are scattered in various sources (e.g., code comments, commits, pull requests, and issues) of DL framework development, and manually identifying assumptions has high costs (e.g., time and resources). To overcome the issues of manually identifying assumptions in DL framework development, we constructed a new and largest dataset (i.e., AssuEval) of assumptions collected from the TensorFlow and Keras repositories on GitHub; explored the performance of seven traditional machine learning models (e.g., Support Vector Machine, Classification and Regression Trees), a popular DL model (i.e., ALBERT), and a large language model (i.e., ChatGPT) of identifying assumptions on the AssuEval dataset. The experiment results show that: ALBERT achieves the best performance (f1-score: 0.9584) of identifying assumptions on the AssuEval dataset, which is much better than the other models (the 2nd best f1-score is 0.6211, achieved by ChatGPT). Though ChatGPT is the most popular large language model, we do not recommend using it to identify assumptions in DL framework development because of its low performance on the task. Fine-tuning ChatGPT specifically for assumption identification could improve the performance. This study provides researchers with the largest dataset of assumptions for further research (e.g., assumption classification, evaluation, and reasoning) and helps practitioners better understand assumptions and how to manage them in their projects.
Abstract（参考訳）: ステークホルダは、ディープラーニング(DL)フレームワークの開発において、常に仮定を行います。これらの仮定は、様々な種類のソフトウェアアーティファクト(要求、設計決定、技術的負債など)と関連付けられており、システム障害につながる可能性がある。既存の仮定管理のためのアプローチとツールは通常、仮定のマニュアル識別に依存する。しかし、仮定はdlフレームワーク開発の様々なソース(例えば、コードコメント、コミット、プルリクエスト、問題)に分散しており、手動で仮定を特定することは高いコスト(例えば、時間とリソース)を持つ。 DLフレームワーク開発における仮定を手動で特定する問題を克服するため、GitHubのTensorFlowとKerasリポジトリから収集された仮定の新しい最大データセット(AssuEval)を構築し、AssuEvalデータセット上の仮定を特定するための7つの伝統的な機械学習モデル(例えば、サポートベクタマシン、分類と回帰ツリー)、人気のあるDLモデル(ALBERT)、大きな言語モデル(例えば、ChatGPT)のパフォーマンスを調査した。 ALBERTは、他のモデルよりもはるかに優れたAssuEvalデータセット上の仮定を特定する最高のパフォーマンス(f1スコア: 0.9584)を達成する(第2の最良のf1スコアは、ChatGPTによって達成された0.6211)。 ChatGPTは、最もポピュラーな大規模言語モデルであるが、タスクの性能が低いため、DLフレームワーク開発における仮定を特定するためにの使用は推奨しない。仮定識別のための微調整ChatGPTは性能を向上する可能性がある。この研究では、さらなる研究のための仮定データセット(仮定分類、評価、推論など)を研究者に提供し、実践者が仮定の理解を深め、プロジェクトでそれらを管理する方法を支援する。

関連論文リスト

Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文参考訳（メタデータ） (2025-10-02T06:25:10Z)
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.15402517835137]
教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
論文参考訳（メタデータ） (2025-04-02T17:50:31Z)
Why Personalizing Deep Learning-Based Code Completion Tools Matters [55.39571645315926]
2つの組織(ApacheとSpring)から136人の開発者、2つのモデルアーキテクチャ(T5とCode Llama)、3つのモデルサイズ(60M、750M、および7Bのトレーニング可能なパラメータ)を考える。 Code Llamaモデル(7B)では、すでにトレーニング済みのモデルのパフォーマンスをオンラインで公開し、同じモデルを組織や開発者固有のデータセットに基づいて微調整しました。以上の結果から,組織別および開発者別追加微調整による予測能力の向上が示唆された。
論文参考訳（メタデータ） (2025-03-18T12:26:06Z)
Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文参考訳（メタデータ） (2024-12-12T21:29:00Z)
How Certain are Uncertainty Estimates? Three Novel Earth Observation Datasets for Benchmarking Uncertainty Quantification in Machine Learning [15.306338199978269]
不確実性定量化(UQ)は、地球観測(EO)製品の信頼性を評価するために不可欠である。機械学習モデルには様々なUQ方法が存在するが、EOデータセットのパフォーマンスはほとんど評価されていない。この記事では、EO機械学習モデルでUQ用に特別に設計された3つのベンチマークデータセットを紹介する。
論文参考訳（メタデータ） (2024-12-09T12:50:27Z)
High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。 2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-09-10T08:04:11Z)
A Comprehensive Benchmark of Machine and Deep Learning Across Diverse Tabular Datasets [0.6144680854063939]
本稿では,Deep Learningモデルが優れているデータセットのタイプを特徴付けるためのベンチマークを紹介する。我々は回帰タスクと分類タスクを含む20の異なるモデルで111のデータセットを評価した。このベンチマークの結果に基づいて、我々は、DLモデルが86.1%の精度で代替手法より優れているシナリオを予測するモデルを訓練する。
論文参考訳（メタデータ） (2024-08-27T06:58:52Z)
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。このサンドボックスは包括的な実験プラットフォームを提供し、データとモデルの両方の迅速なイテレーションと洞察駆動による改善を可能にする。また、徹底的なベンチマークから得られた実りある洞察を明らかにし、データ品質、多様性、モデル行動の間の重要な相互作用に光を当てています。
論文参考訳（メタデータ） (2024-07-16T14:40:07Z)
A New Learning Paradigm for Foundation Model-based Remote Sensing Change Detection [54.01158175996638]
変化検出(CD)は、土地被覆の動的過程を観察し解析するための重要な課題である。本稿では,基盤モデルに基づくCD適応フレームワークであるBi-Temporal Adapter Network (BAN)を提案する。
論文参考訳（メタデータ） (2023-12-02T15:57:17Z)
Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文参考訳（メタデータ） (2023-10-26T17:59:46Z)
Assessing and Enhancing the Robustness of Large Language Models with Task Structure Variations for Logical Reasoning [25.496627355906966]
我々は「ReClor-plus」、「LogiQA-plus」、「LogiQAv2-plus」という3つの新しい論理推論データセットを開発した。実験により、これらの単純な拡張がモデルの性能を著しく損なうことが示されている。微調整とプロンプトのためのロジック駆動型データ拡張の適用は、識別モデルと生成モデルの両方における一般化を促進することができる。
論文参考訳（メタデータ） (2023-10-13T22:29:15Z)
Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文参考訳（メタデータ） (2023-05-23T12:05:09Z)
An Empirical Study of Deep Learning Models for Vulnerability Detection [4.243592852049963]
我々は、広く使われている2つの脆弱性検出データセット上で、最先端の9つのディープラーニングモデルを調査し、再現した。モデル能力,トレーニングデータ,モデル解釈について検討した。我々の研究結果は、モデル結果の理解を深め、トレーニングデータ作成のガイダンスを提供し、モデルの堅牢性を向上させるのに役立つ。
論文参考訳（メタデータ） (2022-12-15T19:49:34Z)
Deep Learning Models for Knowledge Tracing: Review and Empirical Evaluation [2.423547527175807]
我々は,オープンで広く利用されているデータセットを用いた深層学習知識追跡(DLKT)モデルをレビューし,評価する。評価されたDLKTモデルは、以前報告した結果の再現性と評価のために再実装されている。
論文参考訳（メタデータ） (2021-12-30T14:19:27Z)
When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。精度を向上させるために,2つの軽量モジュールを提案する。 DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。 QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文参考訳（メタデータ） (2021-05-27T13:51:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。