論文の概要: Learning Unified User Quantized Tokenizers for User Representation
- arxiv url: http://arxiv.org/abs/2508.00956v1
- Date: Fri, 01 Aug 2025 08:35:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 20:32:48.684168
- Title: Learning Unified User Quantized Tokenizers for User Representation
- Title(参考訳): ユーザ表現のための統一ユーザ量子化トケナイザの学習
- Authors: Chuan He, Yang Chen, Wuliang Huang, Tianyi Zheng, Jianhu Chen, Bin Dou, Yice Luo, Yun Zhu, Baokun Wang, Yongchao Liu, Xing Fu, Yu Cheng, Chuntao Hong, Weiqiang Wang, Xin-Wei Yao,
- Abstract要約: U2QT(Unified User Quantized Tokenizers)は、ドメイン間の知識伝達と異種ドメインの初期融合を統合する新しいフレームワークである。
第1に、マルチビューRQ-VAEは、共有およびソース固有のコードブックを通じて、コンパクトトークンへの因果埋め込みを識別し、セマンティックコヒーレンスを維持しながら効率的なストレージを可能にする。
- 参考スコア(独自算出の注目度): 33.38662746945411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-source user representation learning plays a critical role in enabling personalized services on web platforms (e.g., Alipay). While prior works have adopted late-fusion strategies to combine heterogeneous data sources, they suffer from three key limitations: lack of unified representation frameworks, scalability and storage issues in data compression, and inflexible cross-task generalization. To address these challenges, we propose U^2QT (Unified User Quantized Tokenizers), a novel framework that integrates cross-domain knowledge transfer with early fusion of heterogeneous domains. Our framework employs a two-stage architecture: first, a causal Q-Former projects domain-specific features into a shared causal representation space to preserve inter-modality dependencies; second, a multi-view RQ-VAE discretizes causal embeddings into compact tokens through shared and source-specific codebooks, enabling efficient storage while maintaining semantic coherence. Experimental results showcase U^2QT's advantages across diverse downstream tasks, outperforming task-specific baselines in future behavior prediction and recommendation tasks while achieving efficiency gains in storage and computation. The unified tokenization framework enables seamless integration with language models and supports industrial-scale applications.
- Abstract(参考訳): マルチソースユーザ表現学習は、Webプラットフォーム(Alipayなど)上でパーソナライズされたサービスを実現する上で、重要な役割を果たす。
以前の作業では、異種データソースを組み合わせるために、遅延融合戦略を採用していたが、統一表現フレームワークの欠如、データ圧縮におけるスケーラビリティとストレージの問題、柔軟性のないクロスタスクの一般化の3つの大きな制限に悩まされていた。
これらの課題に対処するために、異種ドメインの早期融合とドメイン間知識伝達を統合する新しいフレームワークであるU^2QT(Unified User Quantized Tokenizers)を提案する。
第1に、マルチビューRQ-VAEは、共有およびソース固有のコードブックを通じて、コンパクトトークンへの因果埋め込みを識別し、セマンティックコヒーレンスを維持しながら効率的なストレージを可能にする。
実験の結果、U^2QTは様々な下流タスクにまたがるアドバンテージを示し、将来の行動予測や推薦タスクにおいてタスク固有のベースラインを上回り、ストレージや計算の効率向上を実現している。
統一トークン化フレームワークは、言語モデルとのシームレスな統合を可能にし、産業規模のアプリケーションをサポートする。
関連論文リスト
- Edge-Assisted Collaborative Fine-Tuning for Multi-User Personalized Artificial Intelligence Generated Content (AIGC) [38.59865959433328]
クラウドベースのソリューションは計算を助けるが、プライバシのリスク、パーソナライズ効率、通信コストに対処するのに不足することが多い。
本稿では,クラスタを意識した新しい階層型統合フレームワークを提案する。
このフレームワークは,スケーラブルなマルチユーザパーソナライズAIGCサービスの実用性を維持しつつ,収束の加速を実現する。
論文 参考訳(メタデータ) (2025-08-06T06:07:24Z) - PanMatch: Unleashing the Potential of Large Vision Models for Unified Matching Models [80.65273820998875]
頑健な対応マッチングのための汎用基盤モデルであるPanMatchを提案する。
我々の重要な洞察は、任意の2フレーム対応タスクが2次元変位推定フレームワーク内で処理可能であることである。
PanMatchは、偏差推定アルゴリズムを前例のない一般化能力で実現し、マルチタスク統合を実現する。
論文 参考訳(メタデータ) (2025-07-11T08:18:52Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - Token Communication-Driven Multimodal Large Models in Resource-Constrained Multiuser Networks [7.137830911253685]
マルチモーダルの大型モデルは インテリジェントなアプリケーションを ワイヤレスエッジに展開する上で
これらの制約は、帯域幅、計算能力、および厳格なレイテンシ要件として表される。
本稿では,ユーザデバイスとエッジインフラストラクチャ間の分散的な拡散を促進するトークン通信パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-06T14:17:05Z) - Federated Fine-Tuning of LLMs: Framework Comparison and Research Directions [59.5243730853157]
Federated Learning(FL)は、分散プライベートデータセットを使用して、トレーニング済みの大規模言語モデル(LLM)を微調整するための、プライバシ保護ソリューションを提供する。
本稿では、知識蒸留(KD)とスプリットラーニング(SL)を統合し、これらの問題を緩和する3つの先進的連合LLM(FedLLM)フレームワークの比較分析を行う。
論文 参考訳(メタデータ) (2025-01-08T11:37:06Z) - Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation [55.99632509895994]
マルチアスペクトセマンティックトークン化のための新しいアプローチであるLAMIAを紹介する。
単一の埋め込みを使用するRQ-VAEとは異なり、LAMIAは独立的でセマンティックな並列な埋め込みの集合である「アイテムパレット」を学習する。
その結果,提案手法よりも提案手法の精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - SPAN: Unlocking Pyramid Representations for Gigapixel Histopathological Images [8.026588319629528]
全体スライド画像(WSI)は、ギガピクセルスケールの解像度と、スパースで不規則に分布する情報領域により、基本的な計算課題を提示する。
本研究では,空間的関係を正確に保存する疎結合型計算フレームワークを提案する。
SPAN(Sparse Pyramid Attention Networks)を開発した。
論文 参考訳(メタデータ) (2024-06-13T17:14:30Z) - Scalable Federated Unlearning via Isolated and Coded Sharding [76.12847512410767]
フェデレートされたアンラーニングは、クライアントレベルのデータエフェクトを削除するための有望なパラダイムとして登場した。
本稿では,分散シャーディングと符号化コンピューティングに基づく,スケーラブルなフェデレーション・アンラーニング・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T08:41:45Z) - A Unified One-Step Solution for Aspect Sentiment Quad Prediction [3.428123050377681]
アスペクトベースの感情分析において、アスペクト感情クワッド予測(ASQP)は難しいが重要なサブタスクである。
我々はASQPのための2つの新しいデータセットをリリースし、このデータセットには、より大きなサイズ、サンプルあたりの単語数、より高密度の2つの特徴が含まれている。
そこで我々は,ASQPを統一したワンステップソリューションであるOne-ASQPを提案し,アスペクトカテゴリを検出し,アスペクト-オピニオン-感覚三重項を同時に同定する。
論文 参考訳(メタデータ) (2023-06-07T05:00:01Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - COBRA: Contrastive Bi-Modal Representation Algorithm [43.33840912256077]
本稿では,CPC(Contrastive Predictive Coding)とNCE(Noth Contrastive Estimation)のパラダイムにインスパイアされた,2つのモダリティの学習を目的とした新しいフレームワークを提案する。
本研究では,この枠組みがモダリティギャップを大幅に減らし,ロバストでタスクに依存しない共同埋め込み空間を生成することを実証的に示す。
7つのベンチマークのクロスモーダルデータセットにまたがる4つのダウンストリームタスクにおいて、既存の作業よりも優れています。
論文 参考訳(メタデータ) (2020-05-07T18:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。