論文の概要: Representation Retrieval Learning for Heterogeneous Data Integration
- arxiv url: http://arxiv.org/abs/2503.09494v2
- Date: Thu, 13 Mar 2025 16:39:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 14:52:25.603473
- Title: Representation Retrieval Learning for Heterogeneous Data Integration
- Title(参考訳): 不均一データ統合のための表現検索学習
- Authors: Qi Xu, Annie Qu,
- Abstract要約: Representation Retrieval(R2$)フレームワークを提案する。このフレームワークは表現学習モジュール(表現器)と疎性誘導機械学習モデル(学習器)を統合している。
我々は,マルチタスク学習における従来の完全共有仮定を緩和し,部分的共有構造を実現し,SIPが過剰リスク境界の収束率を向上させることを示す。
- 参考スコア(独自算出の注目度): 6.332807035771891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of big data, large-scale, multi-modal datasets are increasingly ubiquitous, offering unprecedented opportunities for predictive modeling and scientific discovery. However, these datasets often exhibit complex heterogeneity, such as covariate shift, posterior drift, and missing modalities, that can hinder the accuracy of existing prediction algorithms. To address these challenges, we propose a novel Representation Retrieval ($R^2$) framework, which integrates a representation learning module (the representer) with a sparsity-induced machine learning model (the learner). Moreover, we introduce the notion of "integrativeness" for representers, characterized by the effective data sources used in learning representers, and propose a Selective Integration Penalty (SIP) to explicitly improve the property. Theoretically, we demonstrate that the $R^2$ framework relaxes the conventional full-sharing assumption in multi-task learning, allowing for partially shared structures, and that SIP can improve the convergence rate of the excess risk bound. Extensive simulation studies validate the empirical performance of our framework, and applications to two real-world datasets further confirm its superiority over existing approaches.
- Abstract(参考訳): ビッグデータの時代において、大規模なマルチモーダルデータセットはますます普及し、予測モデリングと科学的発見の先例のない機会を提供する。
しかしながら、これらのデータセットは、共変量シフト、後部ドリフト、欠落したモダリティなどの複雑な不均一性を示すことが多く、既存の予測アルゴリズムの精度を損なう可能性がある。
これらの課題に対処するために、表現学習モジュール(表現者)と疎結合型機械学習モデル(学習者)を統合する新しい表現検索(R^2$)フレームワークを提案する。
さらに,表現者の学習に有効なデータソースを特徴とする「積分性」の概念を導入し,その特性を明示的に改善するための選択的統合罰則(SIP)を提案する。
理論的には、R^2$フレームワークは、マルチタスク学習における従来のフルシェアリング仮定を緩和し、部分的に共有された構造を可能にし、SIPが過剰なリスク境界の収束率を向上させることを実証する。
大規模なシミュレーション研究により、我々のフレームワークの実証的な性能を検証し、2つの実世界のデータセットに適用することで、既存のアプローチよりもその優位性を確認することができる。
関連論文リスト
- AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing [64.79967583649407]
知識追跡(KT)は、学生の知識状態を監視し、質問シーケンスに対する反応をシミュレートする。
既存のKTモデルは通常、単一ステップのトレーニングパラダイムに従っており、大きなエラーの蓄積につながる。
本稿では,多段階KTタスクに着目した新しい知識追跡のための多段階学習フレームワーク(AdvKT)を提案する。
論文 参考訳(メタデータ) (2025-04-07T03:31:57Z) - Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。
実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。
LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - Few-Shot, No Problem: Descriptive Continual Relation Extraction [27.296604792388646]
AIシステムが現実世界のドメインにおける進化する関係を識別し、適応できるようにする上で、わずかなショットの連続関係抽出は重要な課題である。
従来のメモリベースのアプローチは、しばしば限られたサンプルに過度に適合し、古い知識の強化に失敗する。
本稿では,関係関係記述を生成するために,大規模言語モデルから始まる新しい検索ベースソリューションを提案する。
論文 参考訳(メタデータ) (2025-02-27T23:44:30Z) - $α$-TCVAE: On the relationship between Disentanglement and Diversity [21.811889512977924]
本稿では,新しい全相関(TC)下界を用いて最適化された変分オートエンコーダである$alpha$-TCVAEを紹介する。
本稿では,不整合表現がより優れた生成能力と多様性をもたらすという考えを支持する定量的分析について述べる。
以上の結果から,$alpha$-TCVAEはベースラインよりも不整合表現を一貫して学習し,より多様な観測結果を生成することが示された。
論文 参考訳(メタデータ) (2024-11-01T13:50:06Z) - On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
本研究では,(マルチモーダル)自己教師型表現学習のデータ予測タスクにおいて,連続領域における識別確率モデルについて検討する。
我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
MISが要求する条件付き確率密度の和を近似する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T18:02:46Z) - Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - Relational Learning in Pre-Trained Models: A Theory from Hypergraph Recovery Perspective [60.64922606733441]
我々は,関係学習をハイパーグラフリカバリとして形式化する数学的モデルを導入し,基礎モデル(FM)の事前学習について検討する。
我々のフレームワークでは、世界はハイパーグラフとして表現され、データはハイパーエッジからランダムなサンプルとして抽象化される。我々は、このハイパーグラフを復元するための事前学習モデル(PTM)の有効性を理論的に検証し、ミニマックスに近い最適スタイルでデータ効率を解析する。
論文 参考訳(メタデータ) (2024-06-17T06:20:39Z) - Augmentation Invariant Manifold Learning [0.5827521884806071]
本稿では,拡張不変多様体学習と呼ばれる新しい表現学習手法を提案する。
既存の自己教師付き手法と比較して、新しい手法は多様体の幾何学的構造と拡張データの不変性を同時に活用する。
提案手法におけるデータ拡張の役割を理論的研究により明らかにし, 下流解析において, 拡張データから得られたデータ表現が$k$-nearestの隣人を改善できる理由と方法を明らかにした。
論文 参考訳(メタデータ) (2022-11-01T13:42:44Z) - Discriminative Multimodal Learning via Conditional Priors in Generative
Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。
このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文 参考訳(メタデータ) (2021-10-09T17:22:24Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。