論文の概要: Generative Data Transformation: From Mixed to Unified Data
- arxiv url: http://arxiv.org/abs/2602.22743v1
- Date: Thu, 26 Feb 2026 08:30:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.596554
- Title: Generative Data Transformation: From Mixed to Unified Data
- Title(参考訳): 生成データ変換 - 混合データから統一データへ
- Authors: Jiaqing Zhang, Mingjia Yin, Hao Wang, Yuxin Tian, Yuyang Ye, Yawen Li, Wei Guo, Yong Liu, Enhong Chen,
- Abstract要約: textscTaesarはtextbftarget-textbfal textbfregenerationのためのEmphdata中心のフレームワークである。
ドメイン間のコンテキストを対象のシーケンスにエンコードすることで、複雑な融合アーキテクチャを使わずに、標準的なモデルで複雑な依存関係を学習することができる。
- 参考スコア(独自算出の注目度): 57.84692191369066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommendation model performance is intrinsically tied to the quality, volume, and relevance of their training data. To address common challenges like data sparsity and cold start, recent researchs have leveraged data from multiple auxiliary domains to enrich information within the target domain. However, inherent domain gaps can degrade the quality of mixed-domain data, leading to negative transfer and diminished model performance. Existing prevailing \emph{model-centric} paradigm -- which relies on complex, customized architectures -- struggles to capture the subtle, non-structural sequence dependencies across domains, leading to poor generalization and high demands on computational resources. To address these shortcomings, we propose \textsc{Taesar}, a \emph{data-centric} framework for \textbf{t}arget-\textbf{a}lign\textbf{e}d \textbf{s}equenti\textbf{a}l \textbf{r}egeneration, which employs a contrastive decoding mechanism to adaptively encode cross-domain context into target-domain sequences. It employs contrastive decoding to encode cross-domain context into target sequences, enabling standard models to learn intricate dependencies without complex fusion architectures. Experiments show \textsc{Taesar} outperforms model-centric solutions and generalizes to various sequential models. By generating enriched datasets, \textsc{Taesar} effectively combines the strengths of data- and model-centric paradigms. The code accompanying this paper is available at~ \textcolor{blue}{https://github.com/USTC-StarTeam/Taesar}.
- Abstract(参考訳): 勧告モデルのパフォーマンスは、本質的にトレーニングデータの質、ボリューム、および関連性に結びついている。
データスパーシリティやコールドスタートといった一般的な課題に対処するため、最近の研究では、複数の補助ドメインからのデータを活用して、ターゲットドメイン内の情報を強化している。
しかし、固有のドメインギャップは混合ドメインデータの質を低下させ、負の転送とモデル性能を低下させる。
既存の‘emph{model-centric’パラダイムは、複雑でカスタマイズされたアーキテクチャに依存しており、ドメイン間の微妙で非構造的なシーケンス依存を捉えるのに苦労している。
これらの欠点に対処するため、我々は、ターゲットドメインシーケンスにクロスドメインコンテキストを適応的にエンコードするコントラストデコード機構を用いた、 \textbf{t}arget-\textbf{a}lign\textbf{e}d \textbf{s}equenti\textbf{a}l \textbf{r}egeneration のための \emph{data-centric} フレームワークである \textsc{Taesar} を提案する。
対照的に、ドメイン間のコンテキストを対象のシーケンスにエンコードするため、複雑な融合アーキテクチャを使わずに、標準的なモデルで複雑な依存関係を学習することができる。
実験では、textsc{Taesar} はモデル中心の解より優れ、様々なシーケンシャルなモデルに一般化される。
リッチデータセットを生成することで、データ中心のパラダイムとモデル中心のパラダイムの強みを効果的に組み合わせることができます。
この論文に付随するコードは、~ \textcolor{blue}{https://github.com/USTC-StarTeam/Taesar} で入手できる。
関連論文リスト
- From IDs to Semantics: A Generative Framework for Cross-Domain Recommendation with Adaptive Semantic Tokenization [3.4546102059619526]
クロスドメインレコメンデーションは、レコメンデーションの精度と一般化を改善するために不可欠である。
多くの取り組みは、ドメインギャップを埋めるために、マルチドメインのジョイントトレーニングを通じて、絡み合った表現を学ぶことに重点を置いている。
最近のLarge Language Model(LLM)ベースのアプローチは、将来性を示しているが、それでも重要な課題に直面している。
textbfGenerative textbfCross-textbfDomain textbfRecommendation frameworkを提案する。
論文 参考訳(メタデータ) (2025-11-11T09:10:40Z) - GRIP: A Graph-Based Reasoning Instruction Producer [47.80560026838563]
textbfGraphベースのtextbfReasoning textbfInstruction textbfProducer について述べる。
論文 参考訳(メタデータ) (2024-12-12T01:52:25Z) - A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。
最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。
データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文 参考訳(メタデータ) (2024-06-01T02:41:34Z) - Review-Based Hyperbolic Cross-Domain Recommendation [3.4498722449655066]
Cross-Domain Recommendation (CDR)は、ドメイン共有可能な知識をキャプチャし、よりリッチなドメインからスパサーに転送する。
本稿では,ユーザ・イテム関係をモデル化するためのレビューテキストに基づく双曲型CDR手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T17:15:21Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Towards Understanding and Mitigating Dimensional Collapse in Heterogeneous Federated Learning [112.69497636932955]
フェデレートラーニングは、プライバシを考慮したデータ共有を必要とせずに、さまざまなクライアントでモデルをトレーニングすることを目的としている。
本研究では,データの不均一性がグローバル集約モデルの表現に与える影響について検討する。
フェデレーション学習における次元的崩壊を効果的に緩和する新しい手法である sc FedDecorr を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:04:17Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。