論文の概要: On the Power of Source Screening for Learning Shared Feature Extractors
- arxiv url: http://arxiv.org/abs/2602.16125v1
- Date: Wed, 18 Feb 2026 01:32:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.48427
- Title: On the Power of Source Screening for Learning Shared Feature Extractors
- Title(参考訳): 共有特徴指数学習のための音源スクリーニングのパワーについて
- Authors: Leo, Wang, Connor Mclaughlin, Lili Su,
- Abstract要約: 関連性や品質の低いデータソースが表現学習を妨げることはよく理解されている。
我々は、伝統的に「善」と見なされる情報源の収集に焦点をあてることで、どのデータソースを共同で学習すべきかという問題に焦点をあてる。
統計的に最適な部分空間推定において,ソーススクリーニングが中心的な役割を果たすことがわかった。
- 参考スコア(独自算出の注目度): 33.10812756558517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning with shared representation is widely recognized as an effective way to separate commonalities from heterogeneity across various heterogeneous sources. Most existing work includes all related data sources via simultaneously training a common feature extractor and source-specific heads. It is well understood that data sources with low relevance or poor quality may hinder representation learning. In this paper, we further dive into the question of which data sources should be learned jointly by focusing on the traditionally deemed ``good'' collection of sources, in which individual sources have similar relevance and qualities with respect to the true underlying common structure. Towards tractability, we focus on the linear setting where sources share a low-dimensional subspace. We find that source screening can play a central role in statistically optimal subspace estimation. We show that, for a broad class of problem instances, training on a carefully selected subset of sources suffices to achieve minimax optimality, even when a substantial portion of data is discarded. We formalize the notion of an informative subpopulation, develop algorithms and practical heuristics for identifying such subsets, and validate their effectiveness through both theoretical analysis and empirical evaluations on synthetic and real-world datasets.
- Abstract(参考訳): 共有表現による学習は、様々な異種源をまたいだ異種性から共通性を分離する効果的な方法として広く認識されている。
既存の作業の多くは、共通の特徴抽出器とソース固有のヘッドを同時にトレーニングすることで、関連するすべてのデータソースを含んでいる。
関連性や品質の低いデータソースが表現学習を妨げることはよく理解されている。
本稿では,従来「良質」とされてきた資料の収集に焦点をあてて,どの資料を共同で学習すべきかという課題をさらに掘り下げる。
トラクタビリティに向けて、ソースが低次元の部分空間を共有する線形設定に焦点を当てる。
統計的に最適な部分空間推定において,ソーススクリーニングが中心的な役割を果たすことがわかった。
幅広い問題事例に対して,データの大部分を破棄した場合でも,最小限の最適性を達成するために,慎重に選択された情報源のサブセットでトレーニングを行うことが可能であることを示す。
我々は,情報的サブポピュレーションの概念を定式化し,これらのサブセットを同定するためのアルゴリズムと実践的ヒューリスティックスを開発し,その有効性は,合成および実世界のデータセットにおける理論的解析と経験的評価の両方を通して検証する。
関連論文リスト
- SourceSplice: Source Selection for Machine Learning Tasks [3.3916160303055563]
データ品質は、機械学習(ML)タスクの予測パフォーマンスにおいて重要な役割を果たす。
本稿では、基礎となるトレーニングデータセットを構築するために組み合わせなければならないデータソースの最良のサブセットを決定する問題に対処する。
我々は,ソースの適切なサブセットを効率的に選択するフレームワークであるSourceGraspとSourceSpliceを提案する。
論文 参考訳(メタデータ) (2025-07-29T19:29:52Z) - Combining inherent knowledge of vision-language models with unsupervised domain adaptation through strong-weak guidance [44.1830188215271]
教師なしドメイン適応(UDA)は、ラベル付きソースデータセットを活用することで、データのラベル付けの面倒な作業を克服しようとする。
現在の視覚言語モデルは、顕著なゼロショット予測能力を示す。
我々は、ゼロショット予測を用いて、ソースとターゲットデータセットの整列を支援する、強弱誘導学習スキームを導入する。
論文 参考訳(メタデータ) (2023-12-07T06:16:39Z) - An Adaptive Kernel Approach to Federated Learning of Heterogeneous
Causal Effects [10.248235276871256]
本稿では,複数の分散データソースから因果関係を学習するための新たな因果関係推論フレームワークを提案する。
本稿では,データソース間の類似性を学習する適応転送アルゴリズムを提案する。
提案手法は,異なる分布を持つ分散化されたデータソースのベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-01T04:57:48Z) - Multi-View Independent Component Analysis with Shared and Individual
Sources [0.0]
独立成分分析(Independent component analysis, ICA)は、観測データから独立成分源を線形にアンタングル化するためのブラインドソース分離法である。
我々は,対応する線形構造が識別可能であることを証明し,十分な多様なビューやデータポイントが利用できることを条件として,共有ソースを復元できることを示した。
実測値がノイズによって破損した場合にも,高次元設定で音源を復元することが実証的に示される。
論文 参考訳(メタデータ) (2022-10-05T08:23:05Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Unsupervised Multi-source Domain Adaptation Without Access to Source
Data [58.551861130011886]
Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインから知識を転送することで、ラベル付きドメインの予測モデルを学ぶことを目的としている。
本稿では,ソースモデルと適切な重み付けを自動的に組み合わせ,少なくとも最良のソースモデルと同等の性能を発揮する新しい効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-05T10:45:12Z) - InSRL: A Multi-view Learning Framework Fusing Multiple Information
Sources for Distantly-supervised Relation Extraction [19.176183245280267]
ナレッジベースに広く存在する2つのソース、すなわちエンティティ記述と複数の粒度のエンティティタイプを紹介します。
Intact Space Representation Learning (InSRL) による関係抽出のためのエンドツーエンドのマルチビュー学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-17T02:49:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。