論文の概要: VisualLens: Personalization through Task-Agnostic Visual History
- arxiv url: http://arxiv.org/abs/2411.16034v2
- Date: Sat, 18 Oct 2025 00:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.130554
- Title: VisualLens: Personalization through Task-Agnostic Visual History
- Title(参考訳): VisualLens:タスクに依存しないビジュアル履歴によるパーソナライズ
- Authors: Wang Bill Zhu, Deqing Fu, Kai Sun, Yi Lu, Zhaojiang Lin, Seungwhan Moon, Kanika Narang, Mustafa Canim, Yue Liu, Anuj Kumar, Xin Luna Dong,
- Abstract要約: タスクに依存しない視覚履歴を用いたパーソナライズを実現するために,マルチモーダルな大規模言語モデル(MLLM)を活用する新しいフレームワークであるVisualLensを提案する。
VisualLensは、パーソナライズされたレコメンデーションをサポートするために、ビジュアル履歴からスペクトルユーザープロファイルを抽出、フィルタリング、洗練する。
- 参考スコア(独自算出の注目度): 31.424566426569868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing recommendation systems either rely on user interaction logs, such as online shopping history for shopping recommendations, or focus on text signals. However, item-based histories are not always accessible, and are not generalizable for multimodal recommendation. We hypothesize that a user's visual history -- comprising images from daily life -- can offer rich, task-agnostic insights into their interests and preferences, and thus be leveraged for effective personalization. To this end, we propose VisualLens, a novel framework that leverages multimodal large language models (MLLMs) to enable personalization using task-agnostic visual history. VisualLens extracts, filters, and refines a spectrum user profile from the visual history to support personalized recommendation. We created two new benchmarks, Google-Review-V and Yelp-V, with task-agnostic visual histories, and show that VisualLens improves over state-of-the-art item-based multimodal recommendations by 5-10% on Hit@3, and outperforms GPT-4o by 2-5%. Further analysis shows that VisualLens is robust across varying history lengths and excels at adapting to both longer histories and unseen content categories.
- Abstract(参考訳): 既存のレコメンデーションシステムは、オンラインショッピング履歴のようなユーザインタラクションログに依存している。
しかし、アイテムベースの履歴は必ずしもアクセス可能ではなく、マルチモーダルレコメンデーションには一般化できない。
ユーザの視覚履歴 - 日常生活の画像を含む -- は、その興味や嗜好に関するリッチでタスクに依存しない洞察を与え、効果的にパーソナライズするために活用できる、という仮説を立てる。
この目的のために,タスクに依存しない視覚履歴を用いたパーソナライズを実現するために,マルチモーダルな大規模言語モデル(MLLM)を活用する新しいフレームワークであるVisualLensを提案する。
VisualLensは、パーソナライズされたレコメンデーションをサポートするために、ビジュアル履歴からスペクトルユーザープロファイルを抽出、フィルタリング、洗練する。
我々はGoogle-Review-VとYelp-Vという2つの新しいベンチマークを作成し、タスクに依存しないビジュアルヒストリーを作成し、VisualLensが最先端のアイテムベースのマルチモーダルレコメンデーションを5~10%改善し、GPT-4oを2~5%上回っていることを示した。
さらなる分析により、VisualLensは様々な履歴の長さにわたって堅牢であり、長い歴史と見えないコンテンツカテゴリの両方に適応できることが示されている。
関連論文リスト
- Improving Personalized Search with Regularized Low-Rank Parameter Updates [52.29168893900888]
視覚言語検索のための視覚言語二重エンコーダモデルの内部表現の適応方法を示す。
言語エンコーダの最終層における小さなパラメータ集合の正規化低ランク適応は、テキストインバージョンに対する高い効率の代替となる。
提案手法は,自然言語クエリを用いた個人化画像検索のための2つのベンチマークにおいて,最先端の精度を実現する。
論文 参考訳(メタデータ) (2025-06-11T21:15:21Z) - RAGAR: Retrieval Augment Personalized Image Generation Guided by Recommendation [9.31199434211423]
我々は、レコメンデーション(RAGAR)でガイドされた検索機能拡張パーソナライズされた画像ジェネレーションを提案する。
提案手法では,参照項目との類似性に応じて,異なる重み付けを過去の項目に割り当てるための検索機構を用いる。
RAGARは、パーソナライゼーションとセマンティックメトリクスの両方において、5つのベースラインに比べて大幅に改善されている。
論文 参考訳(メタデータ) (2025-05-03T02:20:30Z) - DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition [69.10628479553709]
大規模マルチモーダルモデル(LMM)を拡張した新しいパーソナライズされた画像生成フレームワークであるDRCを紹介する。
DRCは、履歴画像と参照画像から、ユーザスタイルの好みと意味的な意図をそれぞれ明示的に抽出する。
本研究は2つの重要な学習段階を包含する。1) スタイルと意味的特徴を明確に分離するために二重解離型学習を用い,難易度を考慮した再構成駆動型パラダイムを用いて最適化し,2) パーソナライズド・パーソナライズド・パーソナライズド・ジェネレーションを効果的に適用するパーソナライズド・モデリング。
論文 参考訳(メタデータ) (2025-04-24T08:10:10Z) - Interactive Visualization Recommendation with Hier-SUCB [52.11209329270573]
本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。
よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文 参考訳(メタデータ) (2025-02-05T17:14:45Z) - Personalized Fashion Recommendation with Image Attributes and Aesthetics Assessment [15.423307815155534]
利用可能な情報、特に画像を2つのグラフ属性に変換することで、より正確なファッションレコメンデーションを提供することを目指している。
画像とテキストを2つのコンポーネントとして分離する従来の手法と比較して,提案手法は画像とテキスト情報を組み合わせてよりリッチな属性グラフを作成する。
IQON3000データセットの予備実験により,提案手法はベースラインと比較して競争精度が向上することを示した。
論文 参考訳(メタデータ) (2025-01-06T15:31:10Z) - Personalized Graph-Based Retrieval for Large Language Models [51.7278897841697]
ユーザ中心の知識グラフを利用してパーソナライゼーションを強化するフレームワークを提案する。
構造化されたユーザ知識を直接検索プロセスに統合し、ユーザ関連コンテキストにプロンプトを拡大することにより、PGraphはコンテキスト理解と出力品質を向上させる。
また,ユーザ履歴が不足あるいは利用できない実環境において,パーソナライズされたテキスト生成タスクを評価するために設計された,パーソナライズドグラフベースのテキスト生成ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-04T01:46:49Z) - Learning User Embeddings from Human Gaze for Personalised Saliency Prediction [12.361829928359136]
本稿では,自然画像のペアと対応する相性マップからユーザ埋め込みを抽出する新しい手法を提案する。
提案手法のコアとなるのは,異なるユーザのイメージと個人満足度マップのペアを対比することにより,ユーザの埋め込みを学習する,シームズ畳み込みニューラルエンコーダである。
論文 参考訳(メタデータ) (2024-03-20T14:58:40Z) - PALP: Prompt Aligned Personalization of Text-to-Image Models [68.91005384187348]
既存のパーソナライズ手法は、パーソナライズ能力や複雑なプロンプトへのアライメントを損なう。
本稿では,この問題に対処するエフィンスル・プロンプトのためのパーソナライズ手法に着目した新しいアプローチを提案する。
本手法はテキストアライメントの改善に優れ,複雑かつ複雑なプロンプトによる画像作成を可能にする。
論文 参考訳(メタデータ) (2024-01-11T18:35:33Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting [13.252755478909899]
本稿では,3115名のユーザから300万以上のプロンプトを収集した大規模テキスト画像データセットに基づいて,ユーザプロンプトを書き換える新たなアプローチを提案する。
我々の書き換えモデルは、ユーザプロンプトの表現力とアライメントを意図した視覚的出力で向上させる。
論文 参考訳(メタデータ) (2023-10-12T08:36:25Z) - DOR: A Novel Dual-Observation-Based Approach for News Recommendation
Systems [2.7648976108201815]
本稿では,ニュースレコメンデーションの問題に対処する新しい手法を提案する。
我々のアプローチは二重観測の考え方に基づいている。
ニュースの内容とユーザの視点の両方を考慮することで、よりパーソナライズされた正確なレコメンデーションを提供することができる。
論文 参考訳(メタデータ) (2023-02-02T22:16:53Z) - Can you recommend content to creatives instead of final consumers? A
RecSys based on user's preferred visual styles [69.69160476215895]
このレポートは、ACM RecSys '22で発表された論文"Learning Users' Preferred Visual Styles in an Image Marketplace"の拡張である。
ユーザが作業するプロジェクトのセマンティクスに対して視覚スタイルの好みを学習するRecSysを設計する。
論文 参考訳(メタデータ) (2022-08-23T12:11:28Z) - FaIRCoP: Facial Image Retrieval using Contrastive Personalization [43.293482565385055]
属性から顔画像を取得することは、顔認識や被疑者識別などの様々なシステムにおいて重要な役割を果たす。
既存の方法は、ユーザのメンタルイメージの特定の特徴を、提案した画像と比較することで実現している。
そこで本研究では,ユーザのフィードバックを用いて,対象画像と類似あるいは異な画像とラベル付けする手法を提案する。
論文 参考訳(メタデータ) (2022-05-28T09:52:09Z) - User-Guided Personalized Image Aesthetic Assessment based on Deep
Reinforcement Learning [64.07820203919283]
本稿では,新しいユーザガイド型画像美観評価フレームワークを提案する。
深部強化学習(DRL)に基づく審美評価のためのユーザインタラクションを活用して画像のリタッチとランク付けを行う
パーソナライズされた審美分布は、異なるユーザの審美的嗜好とより一致している。
論文 参考訳(メタデータ) (2021-06-14T15:19:48Z) - Personalized Visualization Recommendation [40.838444709402694]
パーソナライズされた視覚化推奨の問題について紹介し,それを解決するための汎用学習フレームワークを提案する。
特に,過去の可視化インタラクションに基づいて,個々のユーザに対してパーソナライズされた可視化を推奨することに着目した。
ユーザ中心の可視化コーパスをリリースし,230万の属性と32万のユーザ生成視覚化を備えた94kデータセットを探索する17.4kユーザで構成される。
論文 参考訳(メタデータ) (2021-02-12T04:06:34Z) - Adversarial Learning for Personalized Tag Recommendation [61.76193196463919]
大規模データセットでトレーニング可能なエンドツーエンドのディープネットワークを提案する。
ユーザの嗜好と視覚的エンコーディングの合同トレーニングにより、ネットワークは視覚的嗜好をタグ付け行動と効率的に統合することができる。
本稿では,提案モデルの有効性を2つの大規模および公開データセットで示す。
論文 参考訳(メタデータ) (2020-04-01T20:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。