論文の概要: COURIER: Contrastive User Intention Reconstruction for Large-Scale
Pre-Train of Image Features
- arxiv url: http://arxiv.org/abs/2306.05001v1
- Date: Thu, 8 Jun 2023 07:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 15:44:41.500895
- Title: COURIER: Contrastive User Intention Reconstruction for Large-Scale
Pre-Train of Image Features
- Title(参考訳): COURIER:画像特徴の大規模事前トレースのための対照的なユーザ意図再構築
- Authors: Jia-Qi Yang, Chenglei Dai, OU Dan, Ju Huang, De-Chuan Zhan, Qingwen
Liu, Xiaoyi Zeng, Yang Yang
- Abstract要約: 本稿では,ユーザのクリック履歴から視覚的特徴を学習できるレコメンデーション対応画像事前学習手法を提案する。
具体的には,行動履歴からユーザ興味に関連する視覚的特徴を抽出するユーザ関心再構築モジュールを提案する。
- 参考スコア(独自算出の注目度): 31.49845412036906
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the development of the multi-media internet, visual characteristics have
become an important factor affecting user interests. Thus, incorporating visual
features is a promising direction for further performance improvements in
click-through rate (CTR) prediction. However, we found that simply injecting
the image embeddings trained with established pre-training methods only has
marginal improvements. We attribute the failure to two reasons: First, The
pre-training methods are designed for well-defined computer vision tasks
concentrating on semantic features, and they cannot learn personalized interest
in recommendations. Secondly, pre-trained image embeddings only containing
semantic information have little information gain, considering we already have
semantic features such as categories and item titles as inputs in the CTR
prediction task. We argue that a pre-training method tailored for
recommendation is necessary for further improvements. To this end, we propose a
recommendation-aware image pre-training method that can learn visual features
from user click histories. Specifically, we propose a user interest
reconstruction module to mine visual features related to user interests from
behavior histories. We further propose a contrastive training method to avoid
collapsing of embedding vectors. We conduct extensive experiments to verify
that our method can learn users' visual interests, and our method achieves
$0.46\%$ improvement in offline AUC and $0.88\%$ improvement in Taobao online
GMV with p-value$<0.01$.
- Abstract(参考訳): マルチメディアインターネットの発展に伴い、視覚特性はユーザーの興味に影響を与える重要な要素となっている。
したがって、視覚的特徴を取り入れることで、クリックスルー率(CTR)予測のさらなるパフォーマンス向上が期待できる。
しかし,確立した事前学習法で訓練した画像埋め込みを単に注入するだけで限界改善が得られた。
まず、事前学習方法は、セマンティックな特徴に焦点を絞ったコンピュータビジョンタスクのために設計されており、レコメンデーションに対する個人的関心を学習することができない。
第二に、CTR予測タスクの入力としてカテゴリや項目タイトルなどのセマンティックな特徴をすでに持っていることを考えると、セマンティック情報のみを含む事前学習された画像埋め込みは、情報ゲインがほとんどない。
さらなる改善のためには,推奨用に調整した事前学習方法が必要である。
そこで本稿では,ユーザのクリック履歴から視覚的特徴を学習可能なレコメンデーション対応画像事前学習手法を提案する。
具体的には,行動履歴からユーザ興味に関連する視覚的特徴を抽出するユーザ関心再構築モジュールを提案する。
さらに,埋め込みベクトルの崩壊を避けるために,コントラスト学習法を提案する。
我々は,提案手法がユーザの視覚的興味を学習できることを検証するために広範囲な実験を行い,オフライン auc における $0.46\%$ 改善と p-value$<0.01$ で taobao online gmv における$0.88\%$改善を達成した。
関連論文リスト
- Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning [21.707688492630304]
HEROは、人間のフィードバックを捉え、微調整のための情報学習信号を提供するオンライントレーニング手法である。
HEROは、推論、カウント、パーソナライズ、NSFWコンテンツを0.5Kのオンラインフィードバックで効果的に処理できる。
論文 参考訳(メタデータ) (2024-10-07T15:12:01Z) - When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective [57.05315507519704]
本稿では,視覚的プロンプトと線形探索の利点を比較分析するために,ログ類似率(LLR)アプローチを提案する。
本測定は,最大で100倍の時間短縮が可能であり,予測精度は最大91%に達する。
論文 参考訳(メタデータ) (2024-09-03T12:03:45Z) - Positive-Unlabelled Learning for Improving Image-based Recommender System Explainability [2.9748898344267785]
本研究は,Positive-Unlabelled (PU) Learning技術を活用することで,新たな説明者トレーニングパイプラインを提案する。
実験により、このPUベースのアプローチは、6つの人気のある実世界のデータセットで最先端の非PUメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-09T10:40:31Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by
Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。
既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。
本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-08T06:49:54Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。
本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。
本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文 参考訳(メタデータ) (2020-10-19T17:59:01Z) - What Makes for Good Views for Contrastive Learning? [90.49736973404046]
我々は、タスク関連情報をそのまま保持しながら、ビュー間の相互情報(MI)を減らすべきであると論じる。
教師なし・半教師なしのフレームワークを考案し、MIの削減をめざして効果的なビューを学習する。
副産物として、ImageNet分類のための教師なし事前学習における最先端の精度を実現する。
論文 参考訳(メタデータ) (2020-05-20T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。