論文の概要: CTRL Your Shift: Clustered Transfer Residual Learning for Many Small Datasets
- arxiv url: http://arxiv.org/abs/2508.11144v1
- Date: Fri, 15 Aug 2025 01:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.706482
- Title: CTRL Your Shift: Clustered Transfer Residual Learning for Many Small Datasets
- Title(参考訳): CTRL Your Shift: 多数の小さなデータセットを対象としたクラスタ転送残差学習
- Authors: Gauri Jain, Dominik Rothenhäusler, Kirk Bansak, Elisabeth Paulson,
- Abstract要約: CTRL(Clustered Transfer Residual Learning)は、ドメイン間の残差学習と適応的なプール/クラスタリングの強みを組み合わせたメタラーニング手法である。
データ量とデータ品質のトレードオフをどのようにナビゲートするかを理論的に明らかにする。
- 参考スコア(独自算出の注目度): 1.7624347338410744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) tasks often utilize large-scale data that is drawn from several distinct sources, such as different locations, treatment arms, or groups. In such settings, practitioners often desire predictions that not only exhibit good overall accuracy, but also remain reliable within each source and preserve the differences that matter across sources. For instance, several asylum and refugee resettlement programs now use ML-based employment predictions to guide where newly arriving families are placed within a host country, which requires generating informative and differentiated predictions for many and often small source locations. However, this task is made challenging by several common characteristics of the data in these settings: the presence of numerous distinct data sources, distributional shifts between them, and substantial variation in sample sizes across sources. This paper introduces Clustered Transfer Residual Learning (CTRL), a meta-learning method that combines the strengths of cross-domain residual learning and adaptive pooling/clustering in order to simultaneously improve overall accuracy and preserve source-level heterogeneity. We provide theoretical results that clarify how our objective navigates the trade-off between data quantity and data quality. We evaluate CTRL alongside other state-of-the-art benchmarks on 5 large-scale datasets. This includes a dataset from the national asylum program in Switzerland, where the algorithmic geographic assignment of asylum seekers is currently being piloted. CTRL consistently outperforms the benchmarks across several key metrics and when using a range of different base learners.
- Abstract(参考訳): 機械学習(ML)タスクは、場所、治療用アーム、グループなど、いくつかの異なるソースから引き出された大規模なデータを利用することが多い。
このような設定では、実践者は、良い全体的な精度を示すだけでなく、各ソース内で信頼性を維持し、ソース間で重要な違いを保持するような予測を望んでいます。
例えば、いくつかの亡命者や難民再定住プログラムでは、MLベースの雇用予測を使用して、新しく到着した家族がホスト国に置かれる場所を案内している。
しかし、この課題は、多くの異なるデータソースの存在、それらの間の分散シフト、およびソース間のサンプルサイズの大きなばらつきなど、これらの設定におけるデータの一般的な特徴によって挑戦されている。
本稿では,クロスドメイン残差学習とアダプティブプーリング/クラスタリングの長所を組み合わせたメタラーニング手法であるClustered Transfer Residual Learning (CTRL)を導入し,全体的な精度の向上とソースレベルの不均一性の維持を図る。
データ量とデータ品質のトレードオフをどのようにナビゲートするかを理論的に明らかにする。
我々は、CTRLを5つの大規模データセットの他の最先端ベンチマークと共に評価する。
これにはスイスの国立精神病院プログラムからのデータセットが含まれており、そこでは現在、亡命希望者のアルゴリズム的な地理的割り当てが試験されている。
CTRLは、いくつかの主要なメトリクスと、さまざまなベースラーナーを使用する場合において、ベンチマークを一貫して上回る。
関連論文リスト
- DataS^3: Dataset Subset Selection for Specialization [60.589117206895125]
我々はDS3問題に特化して設計された最初のデータセットとベンチマークであるDataS3を紹介する。
DataS3には、さまざまな現実世界のアプリケーションドメインが含まれており、それぞれに専門的なデプロイのセットがある。
我々は、手動でキュレートされた(デプロイ固有の)専門家サブセットの存在を実証し、正確さで利用可能なすべてのデータでトレーニングを上回り、51.3%まで向上することを示した。
論文 参考訳(メタデータ) (2025-04-22T21:25:14Z) - Curriculum Learning with Quality-Driven Data Selection [6.794629387975326]
OpenAIのGPT-4は、MLLM(Multimodal Large Language Models)の開発に多大な関心を集めている。
画像とテキストの相関とモデルパープレクシリティを利用して、様々な品質のデータを評価し、選択する新しいデータ選択手法を提案する。
論文 参考訳(メタデータ) (2024-06-27T07:20:36Z) - Think Twice Before Selection: Federated Evidential Active Learning for Medical Image Analysis with Domain Shifts [11.562953837452126]
多様なドメインから得られたローカルデータの情報性を評価するための最初の試みを行う。
本稿では,ドメインシフト下でのデータ評価を校正する新しい手法であるFederated Evidential Active Learning(FEAL)を提案する。
論文 参考訳(メタデータ) (2023-12-05T08:32:27Z) - Data Quality in Imitation Learning [15.939363481618738]
ロボット工学のオフライン学習では、インターネットのスケールデータがないだけで、高品質なデータセットが必要なのです。
これは特に、専門家によるデモンストレーションを用いたロボット学習のためのサンプル効率のよいパラダイムである模倣学習(IL)において当てはまる。
本研究では,分散シフトのレンズによる模倣学習のためのデータ品質の形式化に向けた第一歩を踏み出す。
論文 参考訳(メタデータ) (2023-06-04T18:48:32Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - Exploiting Shared Representations for Personalized Federated Learning [54.65133770989836]
本稿では,クライアント間の共有データ表現と,クライアント毎のユニークなローカルヘッダを学習するための,新しいフェデレーション学習フレームワークとアルゴリズムを提案する。
提案アルゴリズムは, クライアント間の分散計算能力を利用して, 表現の更新毎に低次元の局所パラメータに対して, 多数の局所更新を行う。
この結果は、データ分布間の共有低次元表現を学習することを目的とした、幅広い種類の問題に対するフェデレーション学習以上の関心を持っている。
論文 参考訳(メタデータ) (2021-02-14T05:36:25Z) - WILDS: A Benchmark of in-the-Wild Distribution Shifts [157.53410583509924]
分散シフトは、ワイルドにデプロイされた機械学習システムの精度を実質的に低下させることができる。
分散シフトの多様な範囲を反映した8つのベンチマークデータセットのキュレーションコレクションであるWILDSを紹介します。
本研究は, 標準訓練の結果, 分布性能よりも, 分布域外性能が有意に低下することを示す。
論文 参考訳(メタデータ) (2020-12-14T11:14:56Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。