論文の概要: Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2402.08670v1
- Date: Tue, 13 Feb 2024 18:51:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 14:04:15.746075
- Title: Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models
- Title(参考訳): Rec-GPT4V:大視野モデルによるマルチモーダル勧告
- Authors: Yuqing Liu, Yu Wang, Lichao Sun, Philip S. Yu
- Abstract要約: Rec-GPT4V: Visual-Summary Thought (VST) という新しい推論手法を提案する。
ユーザ履歴をコンテキスト内ユーザの好みとして利用して,最初の課題に対処する。
次に、LVLMにアイテム画像要約の生成を促し、自然言語空間における画像理解とアイテムタイトルを組み合わせることで、候補項目に対するユーザの嗜好を問う。
- 参考スコア(独自算出の注目度): 48.129934341928355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of large vision-language models (LVLMs) offers the potential
to address challenges faced by traditional multimodal recommendations thanks to
their proficient understanding of static images and textual dynamics. However,
the application of LVLMs in this field is still limited due to the following
complexities: First, LVLMs lack user preference knowledge as they are trained
from vast general datasets. Second, LVLMs suffer setbacks in addressing
multiple image dynamics in scenarios involving discrete, noisy, and redundant
image sequences. To overcome these issues, we propose the novel reasoning
scheme named Rec-GPT4V: Visual-Summary Thought (VST) of leveraging large
vision-language models for multimodal recommendation. We utilize user history
as in-context user preferences to address the first challenge. Next, we prompt
LVLMs to generate item image summaries and utilize image comprehension in
natural language space combined with item titles to query the user preferences
over candidate items. We conduct comprehensive experiments across four datasets
with three LVLMs: GPT4-V, LLaVa-7b, and LLaVa-13b. The numerical results
indicate the efficacy of VST.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の開発は、静的画像やテキストのダイナミックスを十分に理解しているため、従来のマルチモーダルレコメンデーションによって直面する課題に対処する可能性がある。
第一に、LVLMは膨大な汎用データセットからトレーニングされるため、ユーザの好みの知識を欠いている。
第二に、LVLMは離散、ノイズ、冗長な画像シーケンスを含むシナリオにおいて、複数の画像ダイナミクスに対処する際の欠点を負う。
これらの課題を克服するために,多モーダルレコメンデーションに大規模な視覚言語モデルを活用する新しい推論手法Rec-GPT4V: Visual-Summary Thought (VST)を提案する。
ユーザ履歴をコンテキスト内ユーザの好みとして利用して,最初の課題に対処する。
次に、LVLMにアイテム画像要約の生成を促し、自然言語空間における画像理解とアイテムタイトルを組み合わせることで、候補項目に対するユーザの嗜好を問う。
我々は,GPT4-V,LLaVa-7b,LLaVa-13bの4つのLVLMを用いた総合実験を行った。
その結果, VSTの有効性が示唆された。
関連論文リスト
- Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM
Context Fusion [73.33837430365065]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - Video-LLaVA: Learning United Visual Representation by Alignment Before
Projection [28.39885771124003]
我々は、画像とビデオの混合データセットから学習し、相互に強化するVideo-LLaVAを紹介する。
Video-LLaVAは5つの画像問合せデータセットと4つの画像ベンチマークツールキットにまたがる9つの画像ベンチマークで優れたパフォーマンスを実現している。
特に、大規模な実験では、ビデオ-LLaVAは、画像やビデオ用に特別に設計されたモデルよりも優れた、統一された視覚表現内の画像とビデオに相互に利益をもたらすことが示されている。
論文 参考訳(メタデータ) (2023-11-16T10:59:44Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。