論文の概要: Source data selection for out-of-domain generalization
- arxiv url: http://arxiv.org/abs/2202.02155v1
- Date: Fri, 4 Feb 2022 14:37:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-07 19:38:54.206010
- Title: Source data selection for out-of-domain generalization
- Title(参考訳): 領域外一般化のためのソースデータ選択
- Authors: Xinran Miao and Kris Sankaran
- Abstract要約: ソースデータセットの貧弱な選択は、ターゲットのパフォーマンスを低下させる可能性がある。
マルチバンド理論とランダム探索に基づく2つのソース選択手法を提案する。
提案手法は, 利用可能なサンプルのランダムな選択よりも優れた再重み付けされたサブサンプルの存在を診断するものであるとみなすことができる。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Models that perform out-of-domain generalization borrow knowledge from
heterogeneous source data and apply it to a related but distinct target task.
Transfer learning has proven effective for accomplishing this generalization in
many applications. However, poor selection of a source dataset can lead to poor
performance on the target, a phenomenon called negative transfer. In order to
take full advantage of available source data, this work studies source data
selection with respect to a target task. We propose two source selection
methods that are based on the multi-bandit theory and random search,
respectively. We conduct a thorough empirical evaluation on both simulated and
real data. Our proposals can be also viewed as diagnostics for the existence of
a reweighted source subsamples that perform better than the random selection of
available samples.
- Abstract(参考訳): ドメイン外一般化を行うモデルは、異種ソースデータから知識を借り、関連するが異なるターゲットタスクに適用する。
伝達学習は多くの応用においてこの一般化を達成するのに有効であることが証明されている。
しかしながら、ソースデータセットの貧弱な選択は、負の転送と呼ばれる現象であるターゲットの性能の低下につながる可能性がある。
利用可能なソースデータを完全に活用するために、本研究は、対象タスクに関するソースデータの選択を研究する。
本稿では,多帯域理論とランダム探索に基づく2つのソース選択手法を提案する。
シミュレーションデータと実データの両方について,徹底的な実証評価を行う。
また,提案手法は,サンプルのランダムな選択よりも優れた重み付けされたソースサブサンプルの存在の診断法と考えることもできる。
関連論文リスト
- Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Provably Efficient Offline Reinforcement Learning with Perturbed Data
Sources [23.000116974718]
オフライン強化学習(RL)に関する既存の理論的研究は、主にターゲットタスクから直接サンプリングされたデータセットを考察している。
しかし実際には、データは複数の異種であるが関連する情報源から来ることが多い。
この研究は、ターゲットタスクのランダムな摂動バージョンから収集される複数のデータセットで、オフラインRLを厳格に理解することを目的としている。
論文 参考訳(メタデータ) (2023-06-14T08:53:20Z) - To Share or not to Share: Predicting Sets of Sources for Model Transfer
Learning [22.846469609263416]
モデル転送が様々な領域とタスクのシーケンスラベリングに及ぼす影響について検討する。
モデル類似性とサポートベクタマシンに基づく提案手法は,予測可能な情報源を予測し,最大24F1ポイントの性能向上を実現する。
論文 参考訳(メタデータ) (2021-04-16T12:44:40Z) - Unsupervised Multi-source Domain Adaptation Without Access to Source
Data [58.551861130011886]
Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインから知識を転送することで、ラベル付きドメインの予測モデルを学ぶことを目的としている。
本稿では,ソースモデルと適切な重み付けを自動的に組み合わせ,少なくとも最良のソースモデルと同等の性能を発揮する新しい効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-05T10:45:12Z) - Domain Impression: A Source Data Free Domain Adaptation Method [27.19677042654432]
教師なしドメイン適応法は、ソースデータセットがすべてのラベルで利用可能であると仮定して、ラベルなしのターゲットセットの適応問題を解決する。
本稿では,ソースデータを必要としないドメイン適応手法を提案する。
ソースデータの代わりに、ソースデータに基づいてトレーニングされた分類器のみを提供しています。
論文 参考訳(メタデータ) (2021-02-17T19:50:49Z) - Multi-characteristic Subject Selection from Biased Datasets [79.82881947891589]
本稿では,異なる集団群に対する最良サンプリング分数を求める制約付き最適化に基づく手法を提案する。
その結果,提案手法がすべての問題変化のベースラインを最大90%上回っていることが示された。
論文 参考訳(メタデータ) (2020-12-18T15:55:27Z) - Reinforced Data Sampling for Model Diversification [15.547681142342846]
本稿では,データを適切にサンプリングする方法を学ぶための新しいReinforced Data Smpling (RDS)法を提案する。
モデルダイバーシフィケーションの最適化問題である$delta-div$をデータサンプリングで定式化し,モデルダイバーシフィケーションを注入することで学習ポテンシャルと最適アロケーションを最大化する。
モデル多様化のためのトレーニング可能なサンプリングは,各種機械学習タスクの潜在能力を追求する競技組織,研究者,さらには開始者にとって有用であることが示唆された。
論文 参考訳(メタデータ) (2020-06-12T11:46:13Z) - Do We Really Need to Access the Source Data? Source Hypothesis Transfer
for Unsupervised Domain Adaptation [102.67010690592011]
Unsupervised adaptUDA (UDA) は、ラベル付きソースデータセットから学んだ知識を活用して、新しいラベル付きドメインで同様のタスクを解決することを目的としている。
従来のUDAメソッドは、モデルに適応するためには、通常、ソースデータにアクセスする必要がある。
この作業は、訓練済みのソースモデルのみが利用できる実践的な環境に取り組み、ソースデータなしでそのようなモデルを効果的に活用してUDA問題を解決する方法に取り組みます。
論文 参考訳(メタデータ) (2020-02-20T03:13:58Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。