論文の概要: Quantifying Dataset Similarity to Guide Transfer Learning
- arxiv url: http://arxiv.org/abs/2510.10866v1
- Date: Mon, 13 Oct 2025 00:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.134567
- Title: Quantifying Dataset Similarity to Guide Transfer Learning
- Title(参考訳): ガイド伝達学習におけるデータセット類似性の定量化
- Authors: Shudong Sun, Hao Helen Zhang,
- Abstract要約: クロスラーニングスコア(CLS)は、ドメイン間の双方向のパフォーマンスを通じて、データセットの類似度を測定する。
CLSは、転送が性能を改善するか低下するかを確実に予測できる。
CLSは高次元問題に対する高価な分布推定の問題を回避するため、効率的かつ高速に計算できる。
- 参考スコア(独自算出の注目度): 1.6328866317851185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning has become a cornerstone of modern machine learning, as it can empower models by leveraging knowledge from related domains to improve learning effectiveness. However, transferring from poorly aligned data can harm rather than help performance, making it crucial to determine whether the transfer will be beneficial before implementation. This work aims to address this challenge by proposing an innovative metric to measure dataset similarity and provide quantitative guidance on transferability. In the literature, existing methods largely focus on feature distributions while overlooking label information and predictive relationships, potentially missing critical transferability insights. In contrast, our proposed metric, the Cross-Learning Score (CLS), measures dataset similarity through bidirectional generalization performance between domains. We provide a theoretical justification for CLS by establishing its connection to the cosine similarity between the decision boundaries for the target and source datasets. Computationally, CLS is efficient and fast to compute as it bypasses the problem of expensive distribution estimation for high-dimensional problems. We further introduce a general framework that categorizes source datasets into positive, ambiguous, or negative transfer zones based on their CLS relative to the baseline error, enabling informed decisions. Additionally, we extend this approach to encoder-head architectures in deep learning to better reflect modern transfer pipelines. Extensive experiments on diverse synthetic and real-world tasks demonstrate that CLS can reliably predict whether transfer will improve or degrade performance, offering a principled tool for guiding data selection in transfer learning.
- Abstract(参考訳): トランスファーラーニングは、関連するドメインからの知識を活用して学習効率を向上させることによってモデルを強化するため、現代の機械学習の基盤となっている。
しかし、整合性の低いデータからの転送はパフォーマンスを助けるよりも害があり、実装前に転送が有益かどうかを判断することが重要である。
この研究は、データセットの類似度を測定し、転送可能性に関する定量的ガイダンスを提供する革新的な指標を提案することで、この問題に対処することを目的としている。
文献では、既存の手法は主に特徴分布に焦点を当て、ラベル情報や予測的関係を見下ろしながら、重要な伝達可能性の洞察を欠いている可能性がある。
対照的に,提案手法であるCLS(Cross-Learning Score)は,ドメイン間の双方向の一般化性能を通じて類似性を測定する。
我々は、目標とソースデータセットの判定境界とコサイン類似性(cosine similarity)との接続を確立することによって、CLSの理論的正当性を提供する。
CLSは高次元問題に対する高価な分布推定の問題を回避し、効率的かつ高速に計算できる。
さらに、ソースデータセットをベースラインエラーに対するCRSに基づいて、正、不明瞭、負の転送ゾーンに分類する一般的なフレームワークを導入し、情報的決定を可能にする。
さらに、このアプローチをディープラーニングのエンコーダヘッドアーキテクチャに拡張し、現代的なトランスファーパイプラインをよりよく反映します。
多様な合成タスクと実世界のタスクに関する大規模な実験は、CLSが転送が性能を改善するか低下するかを確実に予測できることを示し、転送学習におけるデータ選択を導くための原則化されたツールを提供する。
関連論文リスト
- Task-Oriented Low-Label Semantic Communication With Self-Supervised Learning [67.06363342414397]
タスク指向の意味コミュニケーションは、正確なメッセージではなく意味情報を伝達することで伝達効率を高める。
深層学習(DL)に基づく意味コミュニケーションは、意味抽出、伝達、解釈に不可欠な意味知識を効果的に育むことができる。
タスク推論性能を向上させるための自己教師付き学習ベースセマンティックコミュニケーションフレームワーク(SLSCom)を提案する。
論文 参考訳(メタデータ) (2025-05-26T13:06:18Z) - Covariate-Elaborated Robust Partial Information Transfer with Conditional Spike-and-Slab Prior [1.111488407653005]
本研究では,頑健な部分的情報伝達を実現するために,ConCERT'という新しいベイズ変換学習手法を提案する。
情報伝達のためのターゲットパラメータとソースパラメータの共分散に、条件付きスパイク・アンド・スラブ前処理を導入する。
既存の作業とは対照的に、CONCERTは1ステップの手順であり、変数の選択と情報転送を同時に行う。
論文 参考訳(メタデータ) (2024-03-30T07:32:58Z) - Enhancing Information Maximization with Distance-Aware Contrastive
Learning for Source-Free Cross-Domain Few-Shot Learning [55.715623885418815]
クロスドメインのFew-Shot Learningメソッドは、トレーニング前のフェーズでモデルをトレーニングするために、ソースドメインデータにアクセスする必要がある。
データプライバシやデータ送信やトレーニングコストの削減に対する懸念が高まっているため,ソースデータにアクセスせずにCDFSLソリューションを開発する必要がある。
本稿では,これらの課題に対処するための距離対応コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T12:10:24Z) - On the Transferability of Learning Models for Semantic Segmentation for
Remote Sensing Data [12.500746892824338]
近年の深層学習に基づく手法は、リモートセンシング(RS)セマンティックセグメンテーション/分類タスクにおいて従来の学習方法より優れている。
しかし、ソースドメインでトレーニングされたモデルがターゲットドメインに容易に適用できる程度に、その転送可能性に関する包括的な分析は存在しない。
本稿では,従来のディープラーニングモデル(DL)とドメイン適応手法(DA)の有効性について検討する。
論文 参考訳(メタデータ) (2023-10-16T15:13:36Z) - Robust Transfer Learning with Unreliable Source Data [11.813197709246289]
対象関数とソース回帰関数との差を測定する「あいまい度レベル」と呼ばれる新しい量を導入する。
本稿では, 簡単な伝達学習手法を提案し, この新しい量が学習の伝達可能性にどのように関係しているかを示す一般的な定理を確立する。
論文 参考訳(メタデータ) (2023-10-06T21:50:21Z) - Bridged-GNN: Knowledge Bridge Learning for Effective Knowledge Transfer [65.42096702428347]
グラフニューラルネットワーク(GNN)は、隣接するノードから情報を集約する。
知識ブリッジ学習(KBL)は、対象ドメインに対する知識強化後部分布を学習する。
Bridged-GNNには、Bridged-Graphを構築するためのAdaptive Knowledge Retrievalモジュールと、Graph Knowledge Transferモジュールが含まれている。
論文 参考訳(メタデータ) (2023-08-18T12:14:51Z) - CosSGD: Nonlinear Quantization for Communication-efficient Federated
Learning [62.65937719264881]
フェデレーション学習は、これらのクライアントのローカルデータを中央サーバに転送することなく、クライアント間での学習を促進する。
圧縮勾配降下のための非線形量子化を提案し、フェデレーションラーニングで容易に利用することができる。
本システムは,訓練過程の収束と精度を維持しつつ,通信コストを最大3桁まで削減する。
論文 参考訳(メタデータ) (2020-12-15T12:20:28Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Uniform Priors for Data-Efficient Transfer [65.086680950871]
もっとも移動可能な特徴は埋め込み空間において高い均一性を有することを示す。
我々は、未確認のタスクやデータへの適応を容易にする能力の正規化を評価する。
論文 参考訳(メタデータ) (2020-06-30T04:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。