論文の概要: Navigating the challenges in creating complex data systems: a
development philosophy
- arxiv url: http://arxiv.org/abs/2210.13191v1
- Date: Fri, 21 Oct 2022 14:28:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 21:43:49.998535
- Title: Navigating the challenges in creating complex data systems: a
development philosophy
- Title(参考訳): 複雑なデータシステム構築における課題のナビゲート:開発哲学
- Authors: S\"oren Dittmer, Michael Roberts, Julian Gilbey, Ander Biguri,
AIX-COVNET Collaboration, Jacobus Preller, James H.F. Rudd, John A.D. Aston,
Carola-Bibiane Sch\"onlieb
- Abstract要約: 逆のインセンティブと広範なソフトウェアエンジニアリングスキルの欠如は、多くの根本原因のひとつです。
私たちは2つの重要な開発哲学を提唱します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this perspective, we argue that despite the democratization of powerful
tools for data science and machine learning over the last decade, developing
the code for a trustworthy and effective data science system (DSS) is getting
harder. Perverse incentives and a lack of widespread software engineering (SE)
skills are among many root causes we identify that naturally give rise to the
current systemic crisis in reproducibility of DSSs. We analyze why SE and
building large complex systems is, in general, hard. Based on these insights,
we identify how SE addresses those difficulties and how we can apply and
generalize SE methods to construct DSSs that are fit for purpose. We advocate
two key development philosophies, namely that one should incrementally grow --
not biphasically plan and build -- DSSs, and one should always employ two types
of feedback loops during development: one which tests the code's correctness
and another that evaluates the code's efficacy.
- Abstract(参考訳): この観点では、過去10年間のデータサイエンスと機械学習のための強力なツールの民主化にもかかわらず、信頼できる効果的なデータサイエンスシステム(dss)のためのコードの開発が難しくなっていると論じている。
逆のインセンティブと広範なソフトウェアエンジニアリング(SE)スキルの欠如は、DSSの再現性における現在のシステム的危機を自然に引き起こす根本原因のひとつです。
SEと大規模複雑なシステムの構築が一般的に難しい理由を分析します。
これらの知見に基づいて、SEがこれらの困難にどのように対処するか、目的に適したDSSを構築するためにSEメソッドを適用し、一般化する方法を同定する。
私たちは2つの重要な開発哲学を提唱しています。つまり、dssを二分的に計画し、構築するのではなく、段階的に成長させ、開発中に常に2つのタイプのフィードバックループを採用すべきだということです。
関連論文リスト
- Boost, Disentangle, and Customize: A Robust System2-to-System1 Pipeline for Code Generation [58.799397354312596]
大規模言語モデル(LLM)は、様々な領域、特にシステム1タスクにおいて顕著な機能を示した。
System2-to-System1法に関する最近の研究が急増し、推論時間計算によるシステム2の推論知識が探索された。
本稿では,システム2タスクの代表的タスクであるコード生成に注目し,主な課題を2つ挙げる。
論文 参考訳(メタデータ) (2025-02-18T03:20:50Z) - Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。
これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。
直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文 参考訳(メタデータ) (2025-02-11T01:12:11Z) - Code-Survey: An LLM-Driven Methodology for Analyzing Large-Scale Codebases [3.8153349016958074]
我々は,大規模規模の探索と解析を目的とした最初のLCM駆動型手法であるCode-Surveyを紹介した。
調査を慎重に設計することで、Code-Surveyはコミット、Eメールなどの構造化されていないデータを、構造化、構造化、分析可能なデータセットに変換する。
これにより、複雑なソフトウェアの進化を定量的に分析し、設計、実装、保守、信頼性、セキュリティに関する貴重な洞察を明らかにすることができる。
論文 参考訳(メタデータ) (2024-09-24T17:08:29Z) - DLAS: An Exploration and Assessment of the Deep Learning Acceleration
Stack [3.7873597471903935]
私たちはDeep Learning Acceleration Stack (DLAS)で機械学習とシステム技術を組み合わせています。
2つのデータセット間でDLASのパラメータが異なる場合の精度と推定時間への影響を評価した。
全体として、圧縮技術によって提供されるスピードアップは、非常にハードウェアに依存している。
論文 参考訳(メタデータ) (2023-11-15T12:26:31Z) - Rust for Embedded Systems: Current State, Challenges and Open Problems (Extended Report) [6.414678578343769]
本稿では,組み込みシステムにRUSTを使用する際の現状と課題を総合的に理解するための,最初の体系的研究を行う。
さまざまなカテゴリにまたがる2,836のRUST組込みソフトウェアと5つの静的アプリケーションセキュリティテスト(SAST)ツールのデータセットを収集しました。
既存のRUSTソフトウェアサポートが不十分であること、SASTツールがRUST組み込みソフトウェアの特定の機能に対応できないこと、そして既存のRUSTソフトウェアにおける高度な型の導入が、相互運用可能なコードのエンジニアリングを困難にしていることを発見した。
論文 参考訳(メタデータ) (2023-11-08T23:59:32Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - Unpacking Privacy Labels: A Measurement and Developer Perspective on
Google's Data Safety Section [23.183167991569352]
本稿では,定量的および定性的手法を用いて,Googleのデータ安全セクション(DSS)の包括的解析を行う。
報告されたプラクティスには内部的な矛盾があることが分かりました。
次に、DSSの縦断的研究を行い、報告されたプラクティスが時間の経過とともにどのように進化するかを考察する。
論文 参考訳(メタデータ) (2023-06-13T20:01:08Z) - DC-Check: A Data-Centric AI checklist to guide the development of
reliable machine learning systems [81.21462458089142]
データ中心のAIは、信頼できるエンドツーエンドパイプラインを可能にする統一パラダイムとして登場しています。
データ中心の考慮事項を抽出する実行可能なチェックリストスタイルのフレームワークであるDC-Checkを提案する。
この開発におけるデータ中心のレンズは、システム開発に先立って思考力と透明性を促進することを目的としている。
論文 参考訳(メタデータ) (2022-11-09T17:32:09Z) - Learning Physical Concepts in Cyber-Physical Systems: A Case Study [72.74318982275052]
本稿では,時系列データにおける物理概念の学習方法に関する研究の現状について概説する。
また,3タンクシステムの例を用いて,最先端技術から最も重要な手法を分析した。
論文 参考訳(メタデータ) (2021-11-28T14:24:52Z) - Data Mining with Big Data in Intrusion Detection Systems: A Systematic
Literature Review [68.15472610671748]
クラウドコンピューティングは、複雑で高性能でスケーラブルな計算のために、強力で必要不可欠な技術になっている。
データ生成の迅速化とボリュームは、データ管理とセキュリティに重大な課題をもたらし始めている。
ビッグデータ設定における侵入検知システム(IDS)の設計と展開が重要視されている。
論文 参考訳(メタデータ) (2020-05-23T20:57:12Z) - Deep Learning for Person Re-identification: A Survey and Outlook [233.36948173686602]
人物再識別(Re-ID)は、複数の重複しないカメラを通して興味ある人物を検索することを目的としている。
人物のRe-IDシステム開発に関わるコンポーネントを分離することにより、それをクローズドワールドとオープンワールドのセッティングに分類する。
論文 参考訳(メタデータ) (2020-01-13T12:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。