Fugu-MT 論文翻訳(概要): COURIER: Contrastive User Intention Reconstruction for Large-Scale Pre-Train of Image Features

論文の概要: COURIER: Contrastive User Intention Reconstruction for Large-Scale Pre-Train of Image Features

arxiv url: http://arxiv.org/abs/2306.05001v1
Date: Thu, 8 Jun 2023 07:45:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-09 15:44:41.500895
Title: COURIER: Contrastive User Intention Reconstruction for Large-Scale Pre-Train of Image Features
Title（参考訳）: COURIER:画像特徴の大規模事前トレースのための対照的なユーザ意図再構築
Authors: Jia-Qi Yang, Chenglei Dai, OU Dan, Ju Huang, De-Chuan Zhan, Qingwen Liu, Xiaoyi Zeng, Yang Yang
Abstract要約: 本稿では,ユーザのクリック履歴から視覚的特徴を学習できるレコメンデーション対応画像事前学習手法を提案する。具体的には,行動履歴からユーザ興味に関連する視覚的特徴を抽出するユーザ関心再構築モジュールを提案する。
参考スコア（独自算出の注目度）: 31.49845412036906
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: With the development of the multi-media internet, visual characteristics have become an important factor affecting user interests. Thus, incorporating visual features is a promising direction for further performance improvements in click-through rate (CTR) prediction. However, we found that simply injecting the image embeddings trained with established pre-training methods only has marginal improvements. We attribute the failure to two reasons: First, The pre-training methods are designed for well-defined computer vision tasks concentrating on semantic features, and they cannot learn personalized interest in recommendations. Secondly, pre-trained image embeddings only containing semantic information have little information gain, considering we already have semantic features such as categories and item titles as inputs in the CTR prediction task. We argue that a pre-training method tailored for recommendation is necessary for further improvements. To this end, we propose a recommendation-aware image pre-training method that can learn visual features from user click histories. Specifically, we propose a user interest reconstruction module to mine visual features related to user interests from behavior histories. We further propose a contrastive training method to avoid collapsing of embedding vectors. We conduct extensive experiments to verify that our method can learn users' visual interests, and our method achieves $0.46\%$ improvement in offline AUC and $0.88\%$ improvement in Taobao online GMV with p-value$<0.01$.
Abstract（参考訳）: マルチメディアインターネットの発展に伴い、視覚特性はユーザーの興味に影響を与える重要な要素となっている。したがって、視覚的特徴を取り入れることで、クリックスルー率(CTR)予測のさらなるパフォーマンス向上が期待できる。しかし,確立した事前学習法で訓練した画像埋め込みを単に注入するだけで限界改善が得られた。まず、事前学習方法は、セマンティックな特徴に焦点を絞ったコンピュータビジョンタスクのために設計されており、レコメンデーションに対する個人的関心を学習することができない。第二に、CTR予測タスクの入力としてカテゴリや項目タイトルなどのセマンティックな特徴をすでに持っていることを考えると、セマンティック情報のみを含む事前学習された画像埋め込みは、情報ゲインがほとんどない。さらなる改善のためには,推奨用に調整した事前学習方法が必要である。そこで本稿では,ユーザのクリック履歴から視覚的特徴を学習可能なレコメンデーション対応画像事前学習手法を提案する。具体的には,行動履歴からユーザ興味に関連する視覚的特徴を抽出するユーザ関心再構築モジュールを提案する。さらに,埋め込みベクトルの崩壊を避けるために,コントラスト学習法を提案する。我々は,提案手法がユーザの視覚的興味を学習できることを検証するために広範囲な実験を行い,オフライン auc における $0.46\%$ 改善と p-value$<0.01$ で taobao online gmv における$0.88\%$改善を達成した。

関連論文リスト

Interpretable Reward Modeling with Active Concept Bottlenecks [54.00085739303773]
本稿では,解釈可能な嗜好学習を可能にする報酬モデリングフレームワークであるConcept Bottleneck Reward Models (CB-RM)を紹介する。不透明報酬関数に依存する標準的なRLHF法とは異なり、CB-RMは報酬予測を人間の解釈可能な概念に分解する。我々は,最も情報性の高い概念ラベルを動的に取得する能動的学習戦略を定式化する。
論文参考訳（メタデータ） (2025-07-07T06:26:04Z)
ReMem: Mutual Information-Aware Fine-tuning of Pretrained Vision Transformers for Effective Knowledge Distillation [55.55242848676581]
事前訓練された視覚表現モデルからの知識蒸留は、小さなタスク固有の生産モデルを改善する効果的なアプローチを提供する。しかし、そのような知識伝達の有効性は、大規模に事前訓練された強いモデルから蒸留する場合に著しく低下する。相互情報と蒸留の有効性の関連性から,我々は微調整中に相互情報認識最適化を採用することを提案する。
論文参考訳（メタデータ） (2025-06-29T00:25:23Z)
Progressive Scaling Visual Object Tracking [38.28834233600855]
本稿では,学習データ量,モデルサイズ,入力解像度がトラッキング性能に与える影響を系統的に分析し,視覚オブジェクト追跡のための漸進的スケーリングトレーニング戦略を提案する。実験により, 各因子のスケーリングは, 追跡精度を大幅に向上させるが, ナイーブトレーニングは最適下最適化と反復改善の制限に悩まされることがわかった。 DT-Trainingは、モデルポテンシャルを最大化するために、小さな教師の移動とデュアルブランチアライメントを統合するプログレッシブスケーリングフレームワークである。
論文参考訳（メタデータ） (2025-05-26T13:45:27Z)
Interactive Visualization Recommendation with Hier-SUCB [52.11209329270573]
本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文参考訳（メタデータ） (2025-02-05T17:14:45Z)
Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization [19.32714581384729]
我々はDVE(Dedeasible Visual Entailment)と呼ばれる新しいタスクを導入する。ゴールは、追加更新に基づいて、画像前提とテキスト仮説の間の細部の関係を修正できるようにすることである。高いレベルでは、DVEはモデルの初期解釈を洗練させ、様々なアプリケーションにおける精度と信頼性を向上させる。
論文参考訳（メタデータ） (2024-12-19T02:38:31Z)
Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning [21.707688492630304]
HEROは、人間のフィードバックを捉え、微調整のための情報学習信号を提供するオンライントレーニング手法である。 HEROは、推論、カウント、パーソナライズ、NSFWコンテンツを0.5Kのオンラインフィードバックで効果的に処理できる。
論文参考訳（メタデータ） (2024-10-07T15:12:01Z)
When Does Visual Prompting Outperform Linear Probing for Vision-Language Models? A Likelihood Perspective [57.05315507519704]
本稿では,視覚的プロンプトと線形探索の利点を比較分析するために,ログ類似率(LLR)アプローチを提案する。本測定は,最大で100倍の時間短縮が可能であり,予測精度は最大91%に達する。
論文参考訳（メタデータ） (2024-09-03T12:03:45Z)
Positive-Unlabelled Learning for Improving Image-based Recommender System Explainability [2.9748898344267785]
本研究は,Positive-Unlabelled (PU) Learning技術を活用することで,新たな説明者トレーニングパイプラインを提案する。実験により、このPUベースのアプローチは、6つの人気のある実世界のデータセットで最先端の非PUメソッドよりも優れていることが示された。
論文参考訳（メタデータ） (2024-07-09T10:40:31Z)
Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文参考訳（メタデータ） (2024-02-04T04:42:05Z)
VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。 VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。 ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文参考訳（メタデータ） (2024-01-15T17:28:37Z)
VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-08T06:49:54Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文参考訳（メタデータ） (2022-03-25T19:44:09Z)
Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文参考訳（メタデータ） (2020-10-19T17:59:01Z)
What Makes for Good Views for Contrastive Learning? [90.49736973404046]
我々は、タスク関連情報をそのまま保持しながら、ビュー間の相互情報(MI)を減らすべきであると論じる。教師なし・半教師なしのフレームワークを考案し、MIの削減をめざして効果的なビューを学習する。副産物として、ImageNet分類のための教師なし事前学習における最先端の精度を実現する。
論文参考訳（メタデータ） (2020-05-20T17:59:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。