論文の概要: Reproducibility of Build Environments through Space and Time
- arxiv url: http://arxiv.org/abs/2402.00424v1
- Date: Thu, 1 Feb 2024 08:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-02-02 15:46:22.078743
- Title: Reproducibility of Build Environments through Space and Time
- Title(参考訳): 空間と時間による建築環境の再現性
- Authors: Julien Malka (IP Paris, LTCI, ACES), Stefano Zacchiroli (IP Paris,
LTCI, ACES), Th\'eo Zimmermann (ACES, INFRES, IP Paris)
- Abstract要約: 機能的なパッケージマネージャは、空間と時間で再現可能なビルド環境を提供するツールを提供する、と私たちは主張する。
我々は,約700万のNixパッケージのビルド環境を再現し,6年前のNixsリビジョンから1万1千パッケージの99.94%を再構築可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern software engineering builds up on the composability of software
components, that rely on more and more direct and transitive dependencies to
build their functionalities. This principle of reusability however makes it
harder to reproduce projects' build environments, even though reproducibility
of build environments is essential for collaboration, maintenance and component
lifetime. In this work, we argue that functional package managers provide the
tooling to make build environments reproducible in space and time, and we
produce a preliminary evaluation to justify this claim. Using historical data,
we show that we are able to reproduce build environments of about 7 million Nix
packages, and to rebuild 99.94% of the 14 thousand packages from a 6-year-old
Nixpkgs revision.
- Abstract(参考訳): 現代のソフトウェアエンジニアリングは、機能を構築するためにより直接的で推移的な依存関係に依存するソフトウェアコンポーネントの構成可能性に基づいている。
しかしながら、再利用性というこの原則は、ビルド環境の再現性がコラボレーション、メンテナンス、コンポーネント寿命に不可欠であるにもかかわらず、プロジェクトのビルド環境の再現を困難にします。
本研究では,機能パッケージマネージャが空間と時間で再現可能なビルド環境を実現するためのツールを提供し,この主張を正当化するための予備的評価を行う。
過去のデータから,約700万のNixパッケージのビルド環境を再現し,6年前のNixpkgsリビジョンから1万1千パッケージの99.94%を再構築できることが分かる。
関連論文リスト
- SWE-Hub: A Unified Production System for Scalable, Executable Software Engineering Tasks [10.106518618464888]
SWE-Hubは、データファクトリの抽象化を運用するエンドツーエンドシステムである。
環境の自動化、スケーラブルな合成、多様なタスク生成をコヒーレントなプロダクションスタックに統合する。
論文 参考訳(メタデータ) (2026-02-28T09:53:48Z) - A Benchmark for Language Models in Real-World System Building [56.549267258789904]
クロスISAソフトウェアパッケージの修復は、ソフトウェアデプロイメントの信頼性と現代のオペレーティングシステムの安定性を保証するための重要なタスクである。
多様なアーキテクチャや言語にまたがるソフトウェアパッケージのビルド修復のために設計された新しいベンチマークを導入する。
ベンチマークで6つの最先端LCMを評価し,その結果,ISA間のソフトウェアパッケージの修復は困難であり,さらなる進歩が必要であることが示された。
論文 参考訳(メタデータ) (2026-01-19T10:30:46Z) - Environment-Aware Code Generation: How far are We? [52.69113158357018]
大規模言語モデル(LLM)がユーザの特定の環境に適した実行可能コードを確実に生成できるかどうかは不明である。
本稿では,環境対応コード生成(EACG)の最初の体系的研究について述べる。
その結果,現在のLLMは環境固有のコード生成に苦しむ一方で,環境の適合性や実行性も向上していることがわかった。
論文 参考訳(メタデータ) (2026-01-18T04:58:15Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - PIPer: On-Device Environment Setup via Online Reinforcement Learning [74.52354321028493]
自動化された環境設定メソッドは、任意のリポジトリに対して、手作業なしで完全に構成された環境を提供することで、開発者を支援することができる。
近年の研究では、最先端のLarge Language Models (LLMs) でさえ、このタスクの自動化に限られた成功をおさめていることが明らかになっている。
我々は、正しいスクリプトを生成するための教師付き微調整と、環境設定のタスクに適応するために、Reinforcement Learning with Verifiable Rewards(RLVR)を組み合わせる。
EnvBench-Python では,より大型の Qwen3-32B や GPT-4 と同等に動作可能な Qwen3-8B (コンシューマハードウェア上で動作可能なモデル) を実現する。
論文 参考訳(メタデータ) (2025-09-29T20:03:05Z) - LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering [85.58151741052616]
LoCoBenchは、現実的で複雑なソフトウェア開発シナリオにおいて、長いコンテキストのLLMを評価するために特別に設計されたベンチマークである。
ベンチマークでは,10言語にまたがって8000の評価シナリオを体系的に生成する。
LoCoBenchは8つのタスクカテゴリを導入し、重要なコンテキスト理解機能をキャプチャしている。
論文 参考訳(メタデータ) (2025-09-11T16:55:04Z) - SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments [2.184775414778289]
環境ブートストラップスキルを分離するベンチマークである setupbench を導入する。
私たちのタスクは7つの言語エコシステム、5つのデータベースエンジン、マルチサービスオーケストレーションシナリオにまたがっています。
特にリポジトリのセットアップ(38.9-57.4%)とローカルデータベースの設定(20.0-53.3%)に課題がある。
論文 参考訳(メタデータ) (2025-07-11T22:45:07Z) - Attestable builds: compiling verifiable binaries on untrusted systems using trusted execution environments [3.207381224848367]
attestableビルドは、ソフトウェアアーティファクトに強力なソース対バイナリ対応を提供する。
私たちは、ソースコードと最終バイナリアーティファクトの間の信頼を切断する不透明なビルドパイプラインの課題に取り組みます。
論文 参考訳(メタデータ) (2025-05-05T10:00:04Z) - Canonicalization for Unreproducible Builds in Java [11.367562045401554]
再現可能なビルドの概念フレームワークを導入し,再現可能な中央からの大きなデータセットを分析し,再現不可能な6つの根本原因の新たな分類法を開発した。
再現不可能な12,283のアーティファクトに対して、9.48%から26.89%に成功を収めるツールであるChains-Rebuildを紹介します。
論文 参考訳(メタデータ) (2025-04-30T14:17:54Z) - Towards Source Mapping for Zero-Knowledge Smart Contracts: Design and Preliminary Evaluation [9.952399779710044]
本稿では,zkSolcコンパイルパイプライン内のSolidityソースコード,LLVM IR,zkEVMバイトコード間のトレーサビリティを確立するためのソースマッピングフレームワークを提案する。
我々は,50のベンチマークコントラクトと500の現実世界のzkSyncコントラクトのデータセット上でフレームワークを評価し,標準のSolidity構造に対して約97.2%のマッピング精度を観測した。
論文 参考訳(メタデータ) (2025-04-06T01:42:07Z) - Insights into Dependency Maintenance Trends in the Maven Ecosystem [0.14999444543328289]
Goblinフレームワークを用いてNeo4jデータセットの定量的解析を行う。
私たちの分析によると、依存関係が少ないリリースでは、より多くのリリースが欠落していることがわかった。
本研究は,最新リリースの依存関係には肯定的な新鮮度スコアがあり,ソフトウェア管理の有効性が向上していることを示す。
論文 参考訳(メタデータ) (2025-03-28T22:20:24Z) - EnvBench: A Benchmark for Automated Environment Setup [76.02998475135824]
大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。
環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。
このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
論文 参考訳(メタデータ) (2025-03-18T17:19:12Z) - Does Functional Package Management Enable Reproducible Builds at Scale? Yes [4.492444446637857]
Reproducible Builds (R-B) は、ソフトウェアパッケージをソースから再構築することを保証する。
我々は,Nix機能パッケージマネージャのコンテキストにおいて,ビットワイズに関する最初の大規模研究を行う。
非常に高いビットワイズ率、69~91%の上昇傾向、さらに高いリビルド可能性率、99%以上を得ています。
論文 参考訳(メタデータ) (2025-01-27T10:11:27Z) - ExecRepoBench: Multi-level Executable Code Completion Evaluation [45.963424627710765]
本稿では,リポジトリレベルのベンチマークであるExecRepoBenchの作成を通じて,ソフトウェア開発におけるコード補完を強化する新しいフレームワークを紹介する。
本稿では,抽象構文木をベースとした多段階文法ベースの補完手法を提案し,様々な論理単位のコードフラグメントをマスキングする。
次に,Repo-Instruct の 7B パラメータでオープンソースの LLM を微調整し,強力なコード補完ベースラインモデル Qwen2.5-Coder-Instruct-C を生成する。
論文 参考訳(メタデータ) (2024-12-16T17:14:35Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - Designing and Implementing a Generator Framework for a SIMD Abstraction Library [53.84310825081338]
SIMD抽象化ライブラリを生成するための新しいエンドツーエンドフレームワークであるTSLGenを提案する。
私たちのフレームワークは既存のライブラリに匹敵するもので、同じパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-26T13:25:38Z) - Does Using Bazel Help Speed Up Continuous Integration Builds? [9.098224117917336]
Bazelのような新しいアーティファクトベースのビルド技術は、高度なパフォーマンス最適化をサポートする。
GitHubから383のBazelプロジェクトを収集し、人気の高い4つのCIサービスでBazelの並列およびインクリメンタルビルド使用状況を調査し、結果をMavenプロジェクトと比較しました。
私たちの結果は、Bazelプロジェクトの31.23%がCIサービスを採用しているが、CIサービスには使用していないことを示している。
論文 参考訳(メタデータ) (2024-05-01T18:16:38Z) - Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository [4.767858874370881]
実世界のリポジトリ内でクラスレベルのコードを生成する際に,LLMを厳格に評価するためのベンチマークであるRepoClassBenchを紹介する。
RepoClassBenchには、リポジトリの選択からJava、Python、C#にまたがる"Natural Language to Class Generation"タスクが含まれている。
Retrieve-Repotools-Reflect (RRR)は,レポジトリレベルのコンテキストを反復的にナビゲートし,推論する静的解析ツールを備えた新しいアプローチである。
論文 参考訳(メタデータ) (2024-04-22T03:52:54Z) - DevEval: Evaluating Code Generation in Practical Software Projects [52.16841274646796]
我々はDevEvalという名の新しいベンチマークを提案し、実践プロジェクトにおける開発者の経験と一致している。
DevEvalは、119の実用的なプロジェクトから2,690のサンプルを含む厳格なパイプラインを通じて収集される。
DevEvalの5つの人気のあるLCMを評価し、コード生成における実際の能力を明らかにする。
論文 参考訳(メタデータ) (2024-01-12T06:51:30Z) - CLIN: A Continually Learning Language Agent for Rapid Task Adaptation
and Generalization [62.0397906276669]
CLINは、複数のトライアルを継続的に改善した最初の言語ベースのエージェントである。
ゼロショットのパフォーマンスを4ポイント改善し(新しいタスクでは13)、連続的なメモリ更新によってパフォーマンスをさらに向上させることができる。
これは、凍結モデル上に構築されたエージェントのための新しいアーキテクチャを示唆している。
論文 参考訳(メタデータ) (2023-10-16T07:17:27Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z) - Analyzing the Evolution of Inter-package Dependencies in Operating
Systems: A Case Study of Ubuntu [7.76541950830141]
オペレーティングシステム(OS)は複数の相互依存ソフトウェアパッケージを結合し、通常は独自に開発されたアーキテクチャを持つ。
進化的な努力のために、OSのデザイナや開発者たちは、個々のファイルにフォーカスするシステム全体の依存性を完全に理解することで、大きな恩恵を受けることができます。
本稿では,個々のバイナリファイルのレベルでの詳細なパッケージ関係の発見を目的としたフレームワークであるDepExを提案する。
論文 参考訳(メタデータ) (2023-07-10T10:12:21Z) - Managed Geo-Distributed Feature Store: Architecture and System Design [1.1809647985607934]
企業は機械学習を使って現実世界の問題を解決する。
機能ストアがなければ、さまざまなビジネスグループにまたがるさまざまなチームが、上記のプロセスを独立して維持することになります。
本稿では,管理機能ストアを構成するコアアーキテクチャコンポーネントを抽出し,そのようなシステム構築における設計学習を共有することを目的とする。
論文 参考訳(メタデータ) (2023-05-31T17:51:30Z) - Collective Knowledge: organizing research projects as a database of
reusable components and portable workflows with common APIs [0.2538209532048866]
この記事では、集合的知識フレームワーク(CKまたはcKnowledge)のモチベーションと概要について述べる。
CKの概念は、研究プロジェクトを研究成果物をカプセル化した再利用可能なコンポーネントに分解することである。
長期的な目標は、研究者と実践者を結びつけて、すべての知識を共有し再利用することで、イノベーションを加速させることである。
論文 参考訳(メタデータ) (2020-11-02T17:42:59Z) - Integrated Benchmarking and Design for Reproducible and Accessible
Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。
このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。
本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文 参考訳(メタデータ) (2020-09-09T15:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。