論文の概要: Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2402.08670v1
- Date: Tue, 13 Feb 2024 18:51:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 14:04:15.746075
- Title: Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models
- Title(参考訳): Rec-GPT4V:大視野モデルによるマルチモーダル勧告
- Authors: Yuqing Liu, Yu Wang, Lichao Sun, Philip S. Yu
- Abstract要約: Rec-GPT4V: Visual-Summary Thought (VST) という新しい推論手法を提案する。
ユーザ履歴をコンテキスト内ユーザの好みとして利用して,最初の課題に対処する。
次に、LVLMにアイテム画像要約の生成を促し、自然言語空間における画像理解とアイテムタイトルを組み合わせることで、候補項目に対するユーザの嗜好を問う。
- 参考スコア(独自算出の注目度): 48.129934341928355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of large vision-language models (LVLMs) offers the potential
to address challenges faced by traditional multimodal recommendations thanks to
their proficient understanding of static images and textual dynamics. However,
the application of LVLMs in this field is still limited due to the following
complexities: First, LVLMs lack user preference knowledge as they are trained
from vast general datasets. Second, LVLMs suffer setbacks in addressing
multiple image dynamics in scenarios involving discrete, noisy, and redundant
image sequences. To overcome these issues, we propose the novel reasoning
scheme named Rec-GPT4V: Visual-Summary Thought (VST) of leveraging large
vision-language models for multimodal recommendation. We utilize user history
as in-context user preferences to address the first challenge. Next, we prompt
LVLMs to generate item image summaries and utilize image comprehension in
natural language space combined with item titles to query the user preferences
over candidate items. We conduct comprehensive experiments across four datasets
with three LVLMs: GPT4-V, LLaVa-7b, and LLaVa-13b. The numerical results
indicate the efficacy of VST.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の開発は、静的画像やテキストのダイナミックスを十分に理解しているため、従来のマルチモーダルレコメンデーションによって直面する課題に対処する可能性がある。
第一に、LVLMは膨大な汎用データセットからトレーニングされるため、ユーザの好みの知識を欠いている。
第二に、LVLMは離散、ノイズ、冗長な画像シーケンスを含むシナリオにおいて、複数の画像ダイナミクスに対処する際の欠点を負う。
これらの課題を克服するために,多モーダルレコメンデーションに大規模な視覚言語モデルを活用する新しい推論手法Rec-GPT4V: Visual-Summary Thought (VST)を提案する。
ユーザ履歴をコンテキスト内ユーザの好みとして利用して,最初の課題に対処する。
次に、LVLMにアイテム画像要約の生成を促し、自然言語空間における画像理解とアイテムタイトルを組み合わせることで、候補項目に対するユーザの嗜好を問う。
我々は,GPT4-V,LLaVa-7b,LLaVa-13bの4つのLVLMを用いた総合実験を行った。
その結果, VSTの有効性が示唆された。
関連論文リスト
- FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion [7.322448493179106]
Flow Text with Image Insertion Taskでは、LVLMは画像理解、命令理解、長文解釈において優れた能力を持つ必要がある。
318の高品質な中国語画像テキストニュース記事と307の高品質な英語画像テキストニュース記事を含む、画像挿入ベンチマーク付きフローテキスト(FTII-Bench)を導入し、10の異なるニュースドメインをカバーする。
9つのオープンソースと2つのクローズドソースのLVLMと2つのCLIPベースのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-16T13:38:31Z) - SURf: Teaching Large Vision-Language Models to Selectively Utilize Retrieved Information [26.049228685973667]
LVLM(Large Vision-Language Models)は、コンピュータビジョンと自然言語処理の共通点において重要な存在である。
現在、ほとんどのLVLMは検索された情報を選択的に活用するのに苦労しており、無関係または誤解を招く参照に敏感である。
選択的検索情報(SURf)にLVLMを教えるための自己組織化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-21T09:36:14Z) - MMRA: A Benchmark for Evaluating Multi-Granularity and Multi-Image Relational Association Capabilities in Large Visual Language Models [29.795942154703642]
本稿では,複数画像関係関連課題と,厳密にキュレートされた多粒度マルチイメージアソシエーションのベンチマークを提案する。
実験の結果,MMRAベンチマークでは,現在のマルチイメージLVLMは様々なサブタスクに対して異なる利点と欠点を示すことがわかった。
その結果,LVLMは画像の詳細を知覚する強力な能力を示し,複数の画像ヒンジにまたがる情報を関連付ける能力を高め,言語モデルコンポーネントの推論能力の向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-07-24T15:59:01Z) - MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。
MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。
MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文 参考訳(メタデータ) (2024-06-17T17:59:47Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。