論文の概要: COURIER: Contrastive User Intention Reconstruction for Large-Scale
Pre-Train of Image Features
- arxiv url: http://arxiv.org/abs/2306.05001v1
- Date: Thu, 8 Jun 2023 07:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 15:44:41.500895
- Title: COURIER: Contrastive User Intention Reconstruction for Large-Scale
Pre-Train of Image Features
- Title(参考訳): COURIER:画像特徴の大規模事前トレースのための対照的なユーザ意図再構築
- Authors: Jia-Qi Yang, Chenglei Dai, OU Dan, Ju Huang, De-Chuan Zhan, Qingwen
Liu, Xiaoyi Zeng, Yang Yang
- Abstract要約: 本稿では,ユーザのクリック履歴から視覚的特徴を学習できるレコメンデーション対応画像事前学習手法を提案する。
具体的には,行動履歴からユーザ興味に関連する視覚的特徴を抽出するユーザ関心再構築モジュールを提案する。
- 参考スコア(独自算出の注目度): 31.49845412036906
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the development of the multi-media internet, visual characteristics have
become an important factor affecting user interests. Thus, incorporating visual
features is a promising direction for further performance improvements in
click-through rate (CTR) prediction. However, we found that simply injecting
the image embeddings trained with established pre-training methods only has
marginal improvements. We attribute the failure to two reasons: First, The
pre-training methods are designed for well-defined computer vision tasks
concentrating on semantic features, and they cannot learn personalized interest
in recommendations. Secondly, pre-trained image embeddings only containing
semantic information have little information gain, considering we already have
semantic features such as categories and item titles as inputs in the CTR
prediction task. We argue that a pre-training method tailored for
recommendation is necessary for further improvements. To this end, we propose a
recommendation-aware image pre-training method that can learn visual features
from user click histories. Specifically, we propose a user interest
reconstruction module to mine visual features related to user interests from
behavior histories. We further propose a contrastive training method to avoid
collapsing of embedding vectors. We conduct extensive experiments to verify
that our method can learn users' visual interests, and our method achieves
$0.46\%$ improvement in offline AUC and $0.88\%$ improvement in Taobao online
GMV with p-value$<0.01$.
- Abstract(参考訳): マルチメディアインターネットの発展に伴い、視覚特性はユーザーの興味に影響を与える重要な要素となっている。
したがって、視覚的特徴を取り入れることで、クリックスルー率(CTR)予測のさらなるパフォーマンス向上が期待できる。
しかし,確立した事前学習法で訓練した画像埋め込みを単に注入するだけで限界改善が得られた。
まず、事前学習方法は、セマンティックな特徴に焦点を絞ったコンピュータビジョンタスクのために設計されており、レコメンデーションに対する個人的関心を学習することができない。
第二に、CTR予測タスクの入力としてカテゴリや項目タイトルなどのセマンティックな特徴をすでに持っていることを考えると、セマンティック情報のみを含む事前学習された画像埋め込みは、情報ゲインがほとんどない。
さらなる改善のためには,推奨用に調整した事前学習方法が必要である。
そこで本稿では,ユーザのクリック履歴から視覚的特徴を学習可能なレコメンデーション対応画像事前学習手法を提案する。
具体的には,行動履歴からユーザ興味に関連する視覚的特徴を抽出するユーザ関心再構築モジュールを提案する。
さらに,埋め込みベクトルの崩壊を避けるために,コントラスト学習法を提案する。
我々は,提案手法がユーザの視覚的興味を学習できることを検証するために広範囲な実験を行い,オフライン auc における $0.46\%$ 改善と p-value$<0.01$ で taobao online gmv における$0.88\%$改善を達成した。
関連論文リスト
- Revisiting the Power of Prompt for Visual Tuning [53.102284329377056]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by
Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。
既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。
本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-08T06:49:54Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Efficient Human-in-the-loop System for Guiding DNNs Attention [25.501443892795614]
本稿では,ユーザが指定した領域に対して,分類器の注意を対話的に誘導する,効率的なHuman-in-the-loopシステムを提案する。
注意誘導のための従来のアプローチでは、ピクセルレベルのアノテーションの準備が必要であり、インタラクティブシステムとして設計されていない。
論文 参考訳(メタデータ) (2022-06-13T09:04:32Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。
本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。
本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文 参考訳(メタデータ) (2020-10-19T17:59:01Z) - Self-supervised Learning for Large-scale Item Recommendations [18.19202958502061]
大規模なレコメンデータモデルは、巨大なカタログから最も関連性の高いアイテムを見つけ出す。
コーパスには何百万から数十億ものアイテムがあり、ユーザーはごく少数のユーザーに対してフィードバックを提供する傾向にある。
大規模項目推薦のためのマルチタスク自己教師型学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T06:21:43Z) - What Makes for Good Views for Contrastive Learning? [90.49736973404046]
我々は、タスク関連情報をそのまま保持しながら、ビュー間の相互情報(MI)を減らすべきであると論じる。
教師なし・半教師なしのフレームワークを考案し、MIの削減をめざして効果的なビューを学習する。
副産物として、ImageNet分類のための教師なし事前学習における最先端の精度を実現する。
論文 参考訳(メタデータ) (2020-05-20T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。