論文の概要: Domain Specific Data Distillation and Multi-modal Embedding Generation
- arxiv url: http://arxiv.org/abs/2410.20325v1
- Date: Sun, 27 Oct 2024 03:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:20:49.226044
- Title: Domain Specific Data Distillation and Multi-modal Embedding Generation
- Title(参考訳): ドメイン固有データ蒸留とマルチモーダル埋め込み生成
- Authors: Sharadind Peddiraju, Srini Rajagopal,
- Abstract要約: ドメイン中心の埋め込みを作成するという課題は、非構造化データの豊富さとドメイン固有の構造化データの不足から生じる。
本稿では,非構造化データからノイズをフィルタリングするために構造化データを活用する新しいモデリング手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The challenge of creating domain-centric embeddings arises from the abundance of unstructured data and the scarcity of domain-specific structured data. Conventional embedding techniques often rely on either modality, limiting their applicability and efficacy. This paper introduces a novel modeling approach that leverages structured data to filter noise from unstructured data, resulting in embeddings with high precision and recall for domain-specific attribute prediction. The proposed model operates within a Hybrid Collaborative Filtering (HCF) framework, where generic entity representations are fine-tuned through relevant item prediction tasks. Our experiments, focusing on the cloud computing domain, demonstrate that HCF-based embeddings outperform AutoEncoder-based embeddings (using purely unstructured data), achieving a 28% lift in precision and an 11% lift in recall for domain-specific attribute prediction.
- Abstract(参考訳): ドメイン中心の埋め込みを作成するという課題は、非構造化データの豊富さとドメイン固有の構造化データの不足から生じる。
従来の埋め込み技術は、しばしばモダリティに頼り、適用性と有効性を制限する。
本稿では、構造化データを利用して非構造化データからノイズをフィルタリングし、高精度な埋め込みとドメイン固有の属性予測のためのリコールを行う新しいモデリング手法を提案する。
提案モデルはHCF(Hybrid Collaborative Filtering)フレームワーク内で動作し,関連する項目予測タスクを通じて汎用エンティティ表現を微調整する。
クラウドコンピューティング分野に焦点をあてた我々の実験では、HCFベースの埋め込みがAutoEncoderベースの埋め込み(純粋に構造化されていないデータを用いて)より優れており、ドメイン固有の属性予測のリコールにおいて、精度28%のリフトと11%のリフトを達成した。
関連論文リスト
- Efficiently Assemble Normalization Layers and Regularization for Federated Domain Generalization [1.1534313664323637]
ドメインシフト(Domain shift)は、マシンラーニングにおいて、目に見えないドメインでテストした場合に、モデルのパフォーマンス低下に悩まされるという深刻な問題である。
FedDGは、プライバシー保護の方法で協調的なクライアントを使用してグローバルモデルをトレーニングしようと試みている。
本稿では, 誘導正規化方式に依存するFedDGの新しいアーキテクチャ手法,すなわちgPerXANを紹介する。
論文 参考訳(メタデータ) (2024-03-22T20:22:08Z) - Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse [4.98050508891467]
高品質なデータを得るために設計された生産プロンプトを構築するための2段階のアプローチを提案する。
この方法は、幅広いタスクを包含し、多種多様な表現を示す多様なプロンプトの生成を含む。
生成したラベルデータの整合性を確保するため,コスト効率,多次元品質評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-14T08:27:32Z) - Prospector Heads: Generalized Feature Attribution for Large Models & Data [82.02696069543454]
本稿では,説明に基づく帰属手法の効率的かつ解釈可能な代替手段であるプロスペクタヘッドを紹介する。
入力データにおけるクラス固有のパターンの解釈と発見を、プロファイラヘッドがいかに改善できるかを実証する。
論文 参考訳(メタデータ) (2024-02-18T23:01:28Z) - Hypernetwork-Driven Model Fusion for Federated Domain Generalization [26.492360039272942]
フェデレートラーニング(FL)は、異種データのドメインシフトにおいて大きな課題に直面します。
非線形アグリゲーションにハイパーネットワークを用いた、ハイパーネットワークベースのフェデレート・フュージョン(hFedF)と呼ばれるロバストなフレームワークを提案する。
本手法では,ドメインの一般化を効果的に管理するために,クライアント固有の埋め込みと勾配アライメント手法を用いる。
論文 参考訳(メタデータ) (2024-02-10T15:42:03Z) - Trust your Good Friends: Source-free Domain Adaptation by Reciprocal
Neighborhood Clustering [50.46892302138662]
我々は、ソースデータがない場合に、ソース事前学習されたモデルをターゲット領域に適応させる、ソースフリー領域適応問題に対処する。
提案手法は,ソースドメイン分類器と一致しない可能性のあるターゲットデータが,依然として明確なクラスタを形成しているという観測に基づいている。
本研究では, この地域構造を, 地域住民, 相互隣人, 及び拡張近所を考慮し, 効率的に把握できることを実証する。
論文 参考訳(メタデータ) (2023-09-01T15:31:18Z) - Feature construction using explanations of individual predictions [0.0]
本稿では,予測モデルのインスタンスベース説明の集約に基づく探索空間の削減手法を提案する。
これらのグループに対する探索の削減が特徴構築の時間を大幅に短縮することを実証的に示す。
いくつかの分類器の分類精度を大幅に向上させ,大規模データセットにおいても提案する特徴構築の実現可能性を示した。
論文 参考訳(メタデータ) (2023-01-23T18:59:01Z) - AdaptDHM: Adaptive Distribution Hierarchical Model for Multi-Domain CTR
Prediction [4.299153274884263]
本稿では,適応分布階層モデル (Adaptive Distribution Hierarchical Model, AdaptDHM) という,エレガントで柔軟なマルチディストリビューション・モデリング手法を提案する。
本モデルでは, 予測精度が向上し, トレーニング期間中の時間コストは, 他のモデルに比べて50%以上低下する。
論文 参考訳(メタデータ) (2022-11-22T09:10:37Z) - Instance Level Affinity-Based Transfer for Unsupervised Domain
Adaptation [74.71931918541748]
ILA-DAと呼ばれる適応中のソースからターゲットへの転送に対するインスタンス親和性に基づく基準を提案する。
まず、ソースとターゲットをまたいだ類似および異種サンプルを抽出し、マルチサンプルのコントラスト損失を利用してドメインアライメントプロセスを駆動する信頼性が高く効率的な手法を提案する。
ILA-DAの有効性は、様々なベンチマークデータセットに対する一般的なドメイン適応手法よりも精度が一貫した改善を観察することによって検証する。
論文 参考訳(メタデータ) (2021-04-03T01:33:14Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z) - Towards Inheritable Models for Open-Set Domain Adaptation [56.930641754944915]
本稿では、将来、ソースデータセットが存在しない場合の適応を容易にするために、ソース学習モデルを用いた実用的なドメイン適応パラダイムを提案する。
本稿では,ソースデータがない場合でも,対象領域に対して最適なソースモデルの選択を可能にするために,継承可能性の定量化を目的とする手法を提案する。
論文 参考訳(メタデータ) (2020-04-09T07:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。