Fugu-MT 論文翻訳(概要): COURIER: Contrastive User Intention Reconstruction for Large-Scale Visual Recommendation

論文の概要: COURIER: Contrastive User Intention Reconstruction for Large-Scale Visual Recommendation

arxiv url: http://arxiv.org/abs/2306.05001v3
Date: Thu, 6 Jun 2024 08:01:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-08 00:59:06.794900
Title: COURIER: Contrastive User Intention Reconstruction for Large-Scale Visual Recommendation
Title（参考訳）: COURIER:大規模ビジュアルレコメンデーションのためのコントラスト的ユーザインテンション再構築
Authors: Jia-Qi Yang, Chenglei Dai, Dan OU, Dongshuai Li, Ju Huang, De-Chuan Zhan, Xiaoyi Zeng, Yang Yang,
Abstract要約: 我々は、既存のモダリティ機能を超えたさらなる改善のために、推奨に適した視覚的特徴事前学習法が必要であると論じる。本研究では,行動履歴からユーザ興味に関連する視覚的特徴を抽出する効果的なユーザ意図再構築モジュールを提案する。
参考スコア（独自算出の注目度）: 33.903096803803706
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: With the advancement of multimedia internet, the impact of visual characteristics on the decision of users to click or not within the online retail industry is increasingly significant. Thus, incorporating visual features is a promising direction for further performance improvements in click-through rate (CTR). However, experiments on our production system revealed that simply injecting the image embeddings trained with established pre-training methods only has marginal improvements. We believe that the main advantage of existing image feature pre-training methods lies in their effectiveness for cross-modal predictions. However, this differs significantly from the task of CTR prediction in recommendation systems. In recommendation systems, other modalities of information (such as text) can be directly used as features in downstream models. Even if the performance of cross-modal prediction tasks is excellent, it is challenging to provide significant information gain for the downstream models. We argue that a visual feature pre-training method tailored for recommendation is necessary for further improvements beyond existing modality features. To this end, we propose an effective user intention reconstruction module to mine visual features related to user interests from behavior histories, which constructs a many-to-one correspondence. We further propose a contrastive training method to learn the user intentions and prevent the collapse of embedding vectors. We conduct extensive experimental evaluations on public datasets and our production system to verify that our method can learn users' visual interests. Our method achieves $0.46\%$ improvement in offline AUC and $0.88\%$ improvement in Taobao GMV (Cross Merchandise Volume) with p-value$<$0.01.
Abstract（参考訳）: マルチメディアインターネットの普及に伴い、オンライン小売業界内でのクリックの有無の決定に対する視覚的特徴の影響はますます顕著である。したがって、視覚的特徴を取り入れることで、クリックスルーレート(CTR)のさらなるパフォーマンス向上が期待できる。しかし,本システムを用いた実験により,既存の事前学習法で訓練した画像埋め込みを単に注入するだけで限界改善が得られた。既存の画像特徴事前学習法の主な利点は、モーダル横断予測の有効性にあると信じている。しかし、これはレコメンデーションシステムにおけるCTR予測の課題とは大きく異なる。レコメンデーションシステムでは、他のモダリティ(テキストなど)を下流モデルの機能として直接使用することができる。クロスモーダル予測タスクの性能が優れているとしても、下流モデルに重要な情報を提供するのは難しい。我々は、既存のモダリティ機能を超えたさらなる改善のために、推奨に適した視覚的特徴事前学習法が必要であると論じる。そこで本稿では,行動履歴からユーザ興味に関連する視覚的特徴を抽出する効果的なユーザ意図再構築モジュールを提案する。さらに,ユーザの意図を学習し,埋め込みベクトルの崩壊を防止するための対照的な学習手法を提案する。提案手法がユーザの視覚的興味を学習可能であることを確認するため,公開データセットと生産システムに関する広範な実験的な評価を行った。提案手法は, オフラインAUCでは0.46.%, タオオGEVでは0.88.%, p-値では0.01である。

関連論文リスト

Interpretable Reward Modeling with Active Concept Bottlenecks [54.00085739303773]
本稿では,解釈可能な嗜好学習を可能にする報酬モデリングフレームワークであるConcept Bottleneck Reward Models (CB-RM)を紹介する。不透明報酬関数に依存する標準的なRLHF法とは異なり、CB-RMは報酬予測を人間の解釈可能な概念に分解する。我々は,最も情報性の高い概念ラベルを動的に取得する能動的学習戦略を定式化する。
論文参考訳（メタデータ） (2025-07-07T06:26:04Z)
ReMem: Mutual Information-Aware Fine-tuning of Pretrained Vision Transformers for Effective Knowledge Distillation [55.55242848676581]
事前訓練された視覚表現モデルからの知識蒸留は、小さなタスク固有の生産モデルを改善する効果的なアプローチを提供する。しかし、そのような知識伝達の有効性は、大規模に事前訓練された強いモデルから蒸留する場合に著しく低下する。相互情報と蒸留の有効性の関連性から,我々は微調整中に相互情報認識最適化を採用することを提案する。
論文参考訳（メタデータ） (2025-06-29T00:25:23Z)
Progressive Scaling Visual Object Tracking [38.28834233600855]
本稿では,学習データ量,モデルサイズ,入力解像度がトラッキング性能に与える影響を系統的に分析し,視覚オブジェクト追跡のための漸進的スケーリングトレーニング戦略を提案する。実験により, 各因子のスケーリングは, 追跡精度を大幅に向上させるが, ナイーブトレーニングは最適下最適化と反復改善の制限に悩まされることがわかった。 DT-Trainingは、モデルポテンシャルを最大化するために、小さな教師の移動とデュアルブランチアライメントを統合するプログレッシブスケーリングフレームワークである。
論文参考訳（メタデータ） (2025-05-26T13:45:27Z)
Interactive Visualization Recommendation with Hier-SUCB [52.11209329270573]
本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文参考訳（メタデータ） (2025-02-05T17:14:45Z)
Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization [19.32714581384729]
我々はDVE(Dedeasible Visual Entailment)と呼ばれる新しいタスクを導入する。ゴールは、追加更新に基づいて、画像前提とテキスト仮説の間の細部の関係を修正できるようにすることである。高いレベルでは、DVEはモデルの初期解釈を洗練させ、様々なアプリケーションにおける精度と信頼性を向上させる。
論文参考訳（メタデータ） (2024-12-19T02:38:31Z)
Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning [21.707688492630304]
HEROは、人間のフィードバックを捉え、微調整のための情報学習信号を提供するオンライントレーニング手法である。 HEROは、推論、カウント、パーソナライズ、NSFWコンテンツを0.5Kのオンラインフィードバックで効果的に処理できる。
論文参考訳（メタデータ） (2024-10-07T15:12:01Z)
When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective [57.05315507519704]
本稿では,視覚的プロンプトと線形探索の利点を比較分析するために,ログ類似率(LLR)アプローチを提案する。本測定は,最大で100倍の時間短縮が可能であり,予測精度は最大91%に達する。
論文参考訳（メタデータ） (2024-09-03T12:03:45Z)
Positive-Unlabelled Learning for Improving Image-based Recommender System Explainability [2.9748898344267785]
本研究は,Positive-Unlabelled (PU) Learning技術を活用することで,新たな説明者トレーニングパイプラインを提案する。実験により、このPUベースのアプローチは、6つの人気のある実世界のデータセットで最先端の非PUメソッドよりも優れていることが示された。
論文参考訳（メタデータ） (2024-07-09T10:40:31Z)
Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文参考訳（メタデータ） (2024-02-04T04:42:05Z)
VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。 VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。 ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文参考訳（メタデータ） (2024-01-15T17:28:37Z)
VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-08T06:49:54Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文参考訳（メタデータ） (2022-03-25T19:44:09Z)
Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文参考訳（メタデータ） (2020-10-19T17:59:01Z)
What Makes for Good Views for Contrastive Learning? [90.49736973404046]
我々は、タスク関連情報をそのまま保持しながら、ビュー間の相互情報(MI)を減らすべきであると論じる。教師なし・半教師なしのフレームワークを考案し、MIの削減をめざして効果的なビューを学習する。副産物として、ImageNet分類のための教師なし事前学習における最先端の精度を実現する。
論文参考訳（メタデータ） (2020-05-20T17:59:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。