論文の概要: Personalized Dictionary Learning for Heterogeneous Datasets
- arxiv url: http://arxiv.org/abs/2305.15311v1
- Date: Wed, 24 May 2023 16:31:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 14:20:53.039085
- Title: Personalized Dictionary Learning for Heterogeneous Datasets
- Title(参考訳): 不均一データセットのためのパーソナライズド辞書学習
- Authors: Geyu Liang and Naichen Shi and Raed Al Kontar and Salar Fattahi
- Abstract要約: パーソナライズド辞書学習(PerDL)という問題を紹介した。
目的は、共通点を共有する異種データセットから疎線型表現を学ぶことである。
PerDLでは、各データセットの共有およびユニークな機能をグローバルおよびローカル辞書としてモデル化します。
- 参考スコア(独自算出の注目度): 6.8438089867929905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a relevant yet challenging problem named Personalized Dictionary
Learning (PerDL), where the goal is to learn sparse linear representations from
heterogeneous datasets that share some commonality. In PerDL, we model each
dataset's shared and unique features as global and local dictionaries.
Challenges for PerDL not only are inherited from classical dictionary learning
(DL), but also arise due to the unknown nature of the shared and unique
features. In this paper, we rigorously formulate this problem and provide
conditions under which the global and local dictionaries can be provably
disentangled. Under these conditions, we provide a meta-algorithm called
Personalized Matching and Averaging (PerMA) that can recover both global and
local dictionaries from heterogeneous datasets. PerMA is highly efficient; it
converges to the ground truth at a linear rate under suitable conditions.
Moreover, it automatically borrows strength from strong learners to improve the
prediction of weak learners. As a general framework for extracting global and
local dictionaries, we show the application of PerDL in different learning
tasks, such as training with imbalanced datasets and video surveillance.
- Abstract(参考訳): 我々はパーソナライズド辞書学習(PerDL)という問題を導入し,共通性を共有する異種データセットから疎線形表現を学習することを目的とする。
PerDLでは、各データセットの共有およびユニークな機能をグローバルおよびローカル辞書としてモデル化します。
PerDLの課題は、古典辞書学習(DL)から受け継がれるだけでなく、共有された特徴とユニークな特徴の未知の性質によってもたらされる。
本稿では,この問題を厳密に定式化し,グローバル辞書とローカル辞書を確実に解離させる条件を提供する。
これらの条件下では、異種データセットからグローバル辞書とローカル辞書の両方を復元できるPersonalized Matching and Averaging(PerMA)と呼ばれるメタアルゴリズムを提供する。
PerMAは非常に効率的で、適切な条件下では線形速度で基底真理に収束する。
さらに、弱い学習者の予測を改善するために、強い学習者から力を借りる。
グローバルディクショナリーとローカルディクショナリーを抽出する一般的なフレームワークとして、不均衡なデータセットによるトレーニングやビデオ監視など、異なる学習タスクにおけるPerDLの適用例を示す。
関連論文リスト
- Designing NLP Systems That Adapt to Diverse Worldviews [4.915541242112533]
既存のNLPデータセットは、ラベルを集約したり、不一致をフィルタリングすることで、これを曖昧にすることが多い、と私たちは主張する。
我々は、アノテータの人口統計、値、ラベルの正当化をキャプチャするデータセットを構築するという、パースペクティブなアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-18T06:48:09Z) - Forget NLI, Use a Dictionary: Zero-Shot Topic Classification for Low-Resource Languages with Application to Luxembourgish [6.6635650150737815]
NLPでは、ゼロショット分類(ゼロショット分類、ゼロショット分類、ZSC)は、ターゲットクラスのラベル付き例を使わずに、ラベルをテキストデータに割り当てるタスクである。
辞書をZSCのデータソースとして活用する代替ソリューションを提案する。
我々は、ルクセンブルクで話される低リソース言語であるLuxembourgishに注目し、新しいトピック関連分類データセットを2つ構築する。
論文 参考訳(メタデータ) (2024-04-05T06:35:31Z) - Scaling Expert Language Models with Unsupervised Domain Discovery [107.08940500543447]
本稿では,任意のテキストコーパス上で,大規模でスパースな言語モデルを非同期に訓練する,シンプルだが効果的な手法を提案する。
提案手法では,コーパスを関連文書の集合に集約し,各クラスタ上で個別の専門家言語モデルを訓練し,それらをスパースアンサンブルに組み合わせて推論を行う。
論文 参考訳(メタデータ) (2023-03-24T17:38:58Z) - Towards Understanding and Mitigating Dimensional Collapse in Heterogeneous Federated Learning [112.69497636932955]
フェデレートラーニングは、プライバシを考慮したデータ共有を必要とせずに、さまざまなクライアントでモデルをトレーニングすることを目的としている。
本研究では,データの不均一性がグローバル集約モデルの表現に与える影響について検討する。
フェデレーション学習における次元的崩壊を効果的に緩和する新しい手法である sc FedDecorr を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:04:17Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Cross-lingual Transfer for Text Classification with Dictionary-based
Heterogeneous Graph [10.64488240379972]
言語間テキスト分類では,高ソース言語におけるタスク固有トレーニングデータが利用可能であることが求められている。
このようなトレーニングデータの収集は,ラベル付けコストやタスク特性,プライバシの懸念などによって不可能になる可能性がある。
本稿では,ハイソース言語とバイリンガル辞書のタスク非依存語埋め込みのみを利用する代替手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T16:40:40Z) - Exploiting Image Translations via Ensemble Self-Supervised Learning for
Unsupervised Domain Adaptation [0.0]
本稿では,複数の画像翻訳,アンサンブル学習,自己教師型学習を組み合わせた非教師なしドメイン適応(UDA)戦略を,一貫したアプローチで導入する。
我々は、ラベル付き合成データとラベル付き実世界のデータに基づいてセマンティックセグメンテーションモデルを訓練するUDAの標準的なタスクの1つに焦点を当てる。
論文 参考訳(メタデータ) (2021-07-13T16:43:02Z) - Sparsely Factored Neural Machine Translation [3.4376560669160394]
言語情報をニューラルマシン翻訳システムに組み込む標準的なアプローチは、注釈付き特徴ごとに別々の語彙を維持することである。
そこで本研究では,ドメイン外データの大幅な改善と,ドメイン内データに匹敵する品質を示す手法を提案する。
低リソースシナリオの場合、実験はバスク語やドイツ語のような形態素豊かな言語で行われる。
論文 参考訳(メタデータ) (2021-02-17T18:42:00Z) - Structured Prediction as Translation between Augmented Natural Languages [109.50236248762877]
本研究では,構造化予測言語の課題を解決するために,新しいフレームワークであるTANL(Translation between Augmented Natural Languages)を提案する。
タスク固有の差別を訓練することで問題に取り組む代わりに、拡張自然言語間の翻訳タスクとして位置づける。
提案手法は, タスク固有のモデルに適合するか, 性能に優れ, 特に, 共同エンティティと関係抽出に関する新たな最先端結果が得られる。
論文 参考訳(メタデータ) (2021-01-14T18:32:21Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。