論文の概要: A Benchmarking Framework for Model Datasets
- arxiv url: http://arxiv.org/abs/2603.05250v1
- Date: Thu, 05 Mar 2026 15:04:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.283929
- Title: A Benchmarking Framework for Model Datasets
- Title(参考訳): モデルデータセットのためのベンチマークフレームワーク
- Authors: Philipp-Lorenz Glaser, Lola Burgueño, Dominik Bork,
- Abstract要約: モデル駆動エンジニアリングにおける経験的およびLLMベースの研究は、ますますソフトウェアモデルのデータセットに依存している。
このようなデータセットは通常、収集されるか、アドホックに作成されるが、使用する特定のタスクに対する品質の保証はない。
我々は、言語やフォーマット間でソフトウェアモデルのデータセットを体系的に評価し比較するための統一的なインフラを提供するMDEのためのベンチマークプラットフォームを提案する。
- 参考スコア(独自算出の注目度): 1.2234742322758418
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Empirical and LLM-based research in model-driven engineering increasingly relies on datasets of software models, for instance, to train or evaluate machine learning techniques for modeling support. These datasets have a significant impact on solution performance; hence, they should be treated and assessed as first-class artifacts. However, such datasets are typically collected or created ad hoc and without guarantees of their quality for the specific task for which they are used. This limits the comparability of results between studies, obscures dataset quality and representativeness, and leads to weak reproducibility and potential bias. In this work, we propose a benchmarking framework for model datasets (i.e., benchmarking the dataset itself). Benchmarking datasets involves systematically measuring their quality, representativeness, and suitability for specific tasks. To this end, we propose a Benchmark Platform for MDE that provides a unified infrastructure for systematically assessing and comparing datasets of software models across languages and formats, using defined criteria and metrics.
- Abstract(参考訳): モデル駆動エンジニアリングにおける実証的およびLLMベースの研究は、モデリングサポートのための機械学習テクニックをトレーニングまたは評価するために、ソフトウェアモデルのデータセットにますます依存している。
これらのデータセットは、ソリューションのパフォーマンスに大きな影響を与えるため、第一級のアーティファクトとして扱われ、評価されるべきである。
しかしながら、そのようなデータセットは通常、収集または作成され、使用する特定のタスクの品質を保証することなく、アドホックに作成される。
これは研究とデータセットの品質と代表性を区別し、再現性や潜在的なバイアスを弱める。
本研究では,モデルデータセット(すなわち,データセット自体のベンチマーク)のベンチマークフレームワークを提案する。
ベンチマークデータセットは、特定のタスクの品質、代表性、適合性を体系的に測定する。
この目的のために我々は,定義基準と基準を用いて,言語やフォーマットにわたるソフトウェアモデルのデータセットを体系的に評価し,比較するための統一的な基盤を提供する,MDEのためのベンチマークプラットフォームを提案する。
関連論文リスト
- The LLM Data Auditor: A Metric-oriented Survey on Quality and Trustworthiness in Evaluating Synthetic Data [25.926467401802046]
大規模言語モデル(LLM)は、様々なモダリティにまたがるデータを生成する強力なツールとして登場した。
本稿では,2次元から合成データを評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-25T06:40:25Z) - OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - Statistical Comparative Analysis of Semantic Similarities and Model Transferability Across Datasets for Short Answer Grading [3.7723788828505125]
本研究では、確立されたデータセットに基づいて訓練された最先端(SOTA)モデルの、未探索のテキストデータセットへの転送可能性について検討する。
この研究の主な目的は、SOTAモデルの潜在的な適用性と適応性に関する総合的な洞察を得ることである。
論文 参考訳(メタデータ) (2025-08-19T05:45:02Z) - Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability [41.23032741638842]
本稿では,データセットレビュープロセスに,体系的な記述型評価指標を組み込むことを提唱する。
我々は、人間とモデル生成データセットの品質を評価するための構造化フレームワークであるDataRubricsを紹介する。
論文 参考訳(メタデータ) (2025-06-02T15:31:52Z) - Benchmarking community drug response prediction models: datasets, models, tools, and metrics for cross-dataset generalization analysis [36.689210473887904]
本稿では,ディープラーニング(DL)モデルと機械学習(ML)モデルにおけるデータセット間予測の一般化を評価するためのベンチマークフレームワークを提案する。
絶対的なパフォーマンス(データセット間での予測精度など)と相対的なパフォーマンス(例えば、データセット内の結果と比較してパフォーマンス低下)の両方を定量化します。
本結果は,厳密な一般化評価の重要性を浮き彫りにして,未知のデータセット上でモデルをテストする場合の大幅な性能低下を明らかにした。
論文 参考訳(メタデータ) (2025-03-18T15:40:18Z) - Larger or Smaller Reward Margins to Select Preferences for Alignment? [47.11487070429289]
嗜好学習は、大きな言語モデルと人間の価値の整合に不可欠である。
モデルが持つ現在の暗黙の報酬マージンと目標の明示的な報酬マージンとのギャップを定量化するアライメントポテンシャル計量を導入する。
実験結果から,この測定値から選択したデータによるトレーニングはアライメント性能を継続的に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-25T06:43:24Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - On the Evaluation and Refinement of Vision-Language Instruction Tuning
Datasets [71.54954966652286]
VLIT(Vision-Language Instruction-Tuning)データセットの評価を試みる。
各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LIONを構築した。
注目すべきは、完全なデータの半分でなくても、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができることだ。
論文 参考訳(メタデータ) (2023-10-10T13:01:38Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。