論文の概要: SourceSplice: Source Selection for Machine Learning Tasks
- arxiv url: http://arxiv.org/abs/2507.22186v1
- Date: Tue, 29 Jul 2025 19:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.830508
- Title: SourceSplice: Source Selection for Machine Learning Tasks
- Title(参考訳): SourceSplice: 機械学習タスクのソース選択
- Authors: Ambarish Singh, Romila Pradhan,
- Abstract要約: データ品質は、機械学習(ML)タスクの予測パフォーマンスにおいて重要な役割を果たす。
本稿では、あるMLタスクの基盤となるトレーニングデータセットを構築するために組み合わせなければならないデータソースの最良のサブセットを決定する問題に対処する。
我々は,ソースの適切なサブセットを効率的に選択するフレームワークであるSourceGraspとSourceSpliceを提案する。
- 参考スコア(独自算出の注目度): 3.3916160303055563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data quality plays a pivotal role in the predictive performance of machine learning (ML) tasks - a challenge amplified by the deluge of data sources available in modern organizations.Prior work in data discovery largely focus on metadata matching, semantic similarity or identifying tables that should be joined to answer a particular query, but do not consider source quality for high performance of the downstream ML task.This paper addresses the problem of determining the best subset of data sources that must be combined to construct the underlying training dataset for a given ML task.We propose SourceGrasp and SourceSplice, frameworks designed to efficiently select a suitable subset of sources that maximizes the utility of the downstream ML model.Both the algorithms rely on the core idea that sources (or their combinations) contribute differently to the task utility, and must be judiciously chosen.While SourceGrasp utilizes a metaheuristic based on a greediness criterion and randomization, the SourceSplice framework presents a source selection mechanism inspired from gene splicing - a core concept used in protein synthesis.We empirically evaluate our algorithms on three real-world datasets and synthetic datasets and show that, with significantly fewer subset explorations, SourceSplice effectively identifies subsets of data sources leading to high task utility.We also conduct studies reporting the sensitivity of SourceSplice to the decision choices under several settings.
- Abstract(参考訳): データ品質は、機械学習(ML)タスクの予測パフォーマンスにおいて重要な役割を担います。現代の組織で利用可能なデータソースの希薄化によって増幅される課題です。データ発見における作業は、特定のクエリに答えるために結合すべきメタデータマッチング、セマンティック類似性、あるいは識別テーブルに重点を置いています。しかし、ダウンストリームMLタスクのハイパフォーマンスには、ソース品質を考慮しません。この記事では、あるMLタスクの基盤となるトレーニングデータセットを構築するために組み合わさなければならない、データソースの最高のサブセットを決定するという問題に対処します。我々は、ソースGraspとソースSpliceを提案します。ソースGraspとソースSpliceは、下流MLモデルの有用性を最大化するソースの適切なサブセットを効果的に選択するように設計されたフレームワークです。これらのアルゴリズムは、ソース(またはそれらの組み合わせ)がタスクに寄与するコアアイデア(あるいはそれらの組み合わせ)に依存しています。また、ソースグラデーティクスは、その有用性に相応しいものです。ソースグラデーティクス、ソースス、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソース、ソースのセマンティクス、セマンティクス、セマンティクスの3つの概念に大きく影響します。
関連論文リスト
- A Theoretical Framework for Data Efficient Multi-Source Transfer Learning Based on Cramér-Rao Bound [16.49737340580437]
対象モデルを共同でトレーニングするために、各ソースタスクから必要なソースサンプルの最適な量は何か?
具体的には、クロスエントロピー損失と整合する一般化誤差尺度を導入し、Cram'er-Rao界に基づいて最小化して、各ソースタスクの最適な転送量を決定する。
我々はアーキテクチャに依存しないデータ効率のアルゴリズムOTQMSを開発し、深層多元移動学習モデルの学習のための理論的結果を実装した。
論文 参考訳(メタデータ) (2025-02-06T17:32:49Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Interpretable Multi-Source Data Fusion Through Latent Variable Gaussian Process [8.207427766052044]
提案手法は,2つの数学的および2つの材料科学ケーススタディを用いて実証および解析を行った。
シングルソースおよびソースを意識しない機械学習モデルと比較して、提案したマルチソースデータ融合フレームワークはスパースデータ問題に対してより良い予測を提供することができる。
論文 参考訳(メタデータ) (2024-02-06T16:54:59Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Source data selection for out-of-domain generalization [0.76146285961466]
ソースデータセットの貧弱な選択は、ターゲットのパフォーマンスを低下させる可能性がある。
マルチバンド理論とランダム探索に基づく2つのソース選択手法を提案する。
提案手法は, 利用可能なサンプルのランダムな選択よりも優れた再重み付けされたサブサンプルの存在を診断するものであるとみなすことができる。
論文 参考訳(メタデータ) (2022-02-04T14:37:31Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - Unsupervised Multi-source Domain Adaptation Without Access to Source
Data [58.551861130011886]
Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインから知識を転送することで、ラベル付きドメインの予測モデルを学ぶことを目的としている。
本稿では,ソースモデルと適切な重み付けを自動的に組み合わせ,少なくとも最良のソースモデルと同等の性能を発揮する新しい効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-05T10:45:12Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Do We Really Need to Access the Source Data? Source Hypothesis Transfer
for Unsupervised Domain Adaptation [102.67010690592011]
Unsupervised adaptUDA (UDA) は、ラベル付きソースデータセットから学んだ知識を活用して、新しいラベル付きドメインで同様のタスクを解決することを目的としている。
従来のUDAメソッドは、モデルに適応するためには、通常、ソースデータにアクセスする必要がある。
この作業は、訓練済みのソースモデルのみが利用できる実践的な環境に取り組み、ソースデータなしでそのようなモデルを効果的に活用してUDA問題を解決する方法に取り組みます。
論文 参考訳(メタデータ) (2020-02-20T03:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。