論文の概要: Modeling Sampling Workflows for Code Repositories
- arxiv url: http://arxiv.org/abs/2601.19316v1
- Date: Tue, 27 Jan 2026 07:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:51:03.892827
- Title: Modeling Sampling Workflows for Code Repositories
- Title(参考訳): コードリポジトリのためのサンプルワークフローのモデリング
- Authors: Romain Lefeuvre, Maïwenn Le Goasteller, Jessie Galasso, Benoit Combemale, Quentin Perez, Houari Sahraoui,
- Abstract要約: 複雑なサンプリング戦略を明確に記述するためのドメイン特化言語(DSL)を提案する。
この形式主義は、適用されたサンプリング戦略に基づく結果の一般化可能性に関する仕様と推論の両方を支持する。
我々は,Python ベースの流用 API として DSL を実装し,サンプルから抽出した統計的指標を用いた代表性推論をいかに促進するかを示す。
- 参考スコア(独自算出の注目度): 0.09851812512860353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empirical software engineering research often depends on datasets of code repository artifacts, where sampling strategies are employed to enable large-scale analyses. The design and evaluation of these strategies are critical, as they directly influence the generalizability of research findings. However, sampling remains an underestimated aspect in software engineering research: we identify two main challenges related to (1) the design and representativeness of sampling approaches, and (2) the ability to reason about the implications of sampling decisions on generalizability. To address these challenges, we propose a Domain-Specific Language (DSL) to explicitly describe complex sampling strategies through composable sampling operators. This formalism supports both the specification and the reasoning about the generalizability of results based on the applied sampling strategies. We implement the DSL as a Python-based fluent API, and demonstrate how it facilitates representativeness reasoning using statistical indicators extracted from sampling workflows. We validate our approach through a case study of MSR papers involving code repository sampling. Our results show that the DSL can model the sampling strategies reported in recent literature.
- Abstract(参考訳): 経験的ソフトウェア工学の研究は多くの場合、大規模な分析を可能にするためにサンプリング戦略を採用するコードリポジトリアーティファクトのデータセットに依存する。
これらの戦略の設計と評価は、研究成果の一般化性に直接影響するため、重要である。
しかしながら,サンプリングはソフトウェア工学研究において過小評価されている側面であり,(1)サンプリング手法の設計と代表性,(2)サンプリング決定が一般化可能性に与える影響を判断する能力の2つの主な課題を同定する。
これらの課題に対処するために、構成可能なサンプリング演算子を通して複雑なサンプリング戦略を明示的に記述するドメイン特化言語(DSL)を提案する。
この形式主義は、適用されたサンプリング戦略に基づく結果の一般化可能性に関する仕様と推論の両方を支持する。
我々は,Python ベースの流用 API として DSL を実装し,サンプルワークフローから抽出した統計的指標を用いた代表性推論をいかに促進するかを実証する。
コードレポジトリのサンプリングを含むMSR論文のケーススタディを通じて,我々のアプローチを検証する。
この結果から,近年の文献で報告されているサンプリング戦略をDSLでモデル化できることが示唆された。
関連論文リスト
- SERM: Self-Evolving Relevance Model with Agent-Driven Learning from Massive Query Streams [53.78257200138774]
本稿では,2つの相補的マルチエージェントモジュールからなる自己進化関連モデル(SERM)を提案する。
我々はSERMを大規模産業環境で評価し、毎日数十億のユーザリクエストを処理している。
論文 参考訳(メタデータ) (2026-01-14T14:31:16Z) - Sampling Strategies for Efficient Training of Deep Learning Object Detection Algorithms [4.609829289649562]
深層学習物体検出モデルの学習効率を高めるために,2つのサンプリング手法を検討した。
第1の戦略は一様サンプリングであり、オブジェクトの動的状態空間を通じて一様だがランダムにサンプルを取得しようとするものである。
フレーム差分サンプリングの第2の戦略は、連続するフレーム間の時間的冗長性を調べるために開発されている。
論文 参考訳(メタデータ) (2025-05-23T18:54:01Z) - Unified Convergence Analysis for Score-Based Diffusion Models with Deterministic Samplers [49.1574468325115]
決定論的サンプリングのための統合収束分析フレームワークを提案する。
我々のフレームワークは$tilde O(d2/epsilon)$の反復複雑性を実現する。
また,Denoising Implicit Diffusion Models (DDIM) タイプのサンプルについて詳細な分析を行った。
論文 参考訳(メタデータ) (2024-10-18T07:37:36Z) - Sampling Through the Lens of Sequential Decision Making [9.101505546901999]
我々はアダプティブ・サンプル・ウィズ・リワード(ASR)と呼ばれる報酬誘導型サンプリング戦略を提案する。
提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。
情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-17T04:01:29Z) - Beyond Farthest Point Sampling in Point-Wise Analysis [52.218037492342546]
本稿では,ポイントワイズ分析タスクのための新しいデータ駆動型サンプル学習手法を提案する。
我々はサンプルと下流のアプリケーションを共同で学習する。
実験により, 従来のベースライン法に比べて, サンプルとタスクの同時学習が顕著に改善することが示された。
論文 参考訳(メタデータ) (2021-07-09T08:08:44Z) - Federated Learning under Importance Sampling [49.17137296715029]
本研究は, サンプリングエージェントと非均一に誘導されるデータに対する重要サンプリングと工夫の効果について検討する。
代替のないサンプリングを含むスキームでは,結果のアーキテクチャの性能は,各エージェントのデータ変動性に関連する2つの要因によって制御される。
論文 参考訳(メタデータ) (2020-12-14T10:08:55Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。