Fugu-MT 論文翻訳(概要): Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models

論文の概要: Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2402.08670v1
Date: Tue, 13 Feb 2024 18:51:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 14:04:15.746075
Title: Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models
Title（参考訳）: Rec-GPT4V:大視野モデルによるマルチモーダル勧告
Authors: Yuqing Liu, Yu Wang, Lichao Sun, Philip S. Yu
Abstract要約: Rec-GPT4V: Visual-Summary Thought (VST) という新しい推論手法を提案する。ユーザ履歴をコンテキスト内ユーザの好みとして利用して,最初の課題に対処する。次に、LVLMにアイテム画像要約の生成を促し、自然言語空間における画像理解とアイテムタイトルを組み合わせることで、候補項目に対するユーザの嗜好を問う。
参考スコア（独自算出の注目度）: 48.129934341928355
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The development of large vision-language models (LVLMs) offers the potential to address challenges faced by traditional multimodal recommendations thanks to their proficient understanding of static images and textual dynamics. However, the application of LVLMs in this field is still limited due to the following complexities: First, LVLMs lack user preference knowledge as they are trained from vast general datasets. Second, LVLMs suffer setbacks in addressing multiple image dynamics in scenarios involving discrete, noisy, and redundant image sequences. To overcome these issues, we propose the novel reasoning scheme named Rec-GPT4V: Visual-Summary Thought (VST) of leveraging large vision-language models for multimodal recommendation. We utilize user history as in-context user preferences to address the first challenge. Next, we prompt LVLMs to generate item image summaries and utilize image comprehension in natural language space combined with item titles to query the user preferences over candidate items. We conduct comprehensive experiments across four datasets with three LVLMs: GPT4-V, LLaVa-7b, and LLaVa-13b. The numerical results indicate the efficacy of VST.
Abstract（参考訳）: 大規模視覚言語モデル(LVLM)の開発は、静的画像やテキストのダイナミックスを十分に理解しているため、従来のマルチモーダルレコメンデーションによって直面する課題に対処する可能性がある。第一に、LVLMは膨大な汎用データセットからトレーニングされるため、ユーザの好みの知識を欠いている。第二に、LVLMは離散、ノイズ、冗長な画像シーケンスを含むシナリオにおいて、複数の画像ダイナミクスに対処する際の欠点を負う。これらの課題を克服するために,多モーダルレコメンデーションに大規模な視覚言語モデルを活用する新しい推論手法Rec-GPT4V: Visual-Summary Thought (VST)を提案する。ユーザ履歴をコンテキスト内ユーザの好みとして利用して,最初の課題に対処する。次に、LVLMにアイテム画像要約の生成を促し、自然言語空間における画像理解とアイテムタイトルを組み合わせることで、候補項目に対するユーザの嗜好を問う。我々は,GPT4-V,LLaVa-7b,LLaVa-13bの4つのLVLMを用いた総合実験を行った。その結果, VSTの有効性が示唆された。

関連論文リスト

Revisit What You See: Disclose Language Prior in Vision Tokens for Efficient Guided Decoding of LVLMs [8.97780713904412]
本稿では、視覚トークンを参照してLVLM(Large Vision-Language Models)におけるテキスト生成プロセスのガイドを行う、シンプルで効果的な復号法であるReVisiTを紹介する。提案手法は,テキストトークン分布空間に投影し,制約付き発散最小化により,各復号ステップにおいて最も関連性の高い視覚トークンを動的に選択することにより,視覚トークン内に埋め込まれた意味情報を活用する。
論文参考訳（メタデータ） (2025-06-11T08:46:55Z)
ImageRef-VL: Enabling Contextual Image Referencing in Vision-Language Models [15.907584884933414]
会話コンテキストに基づいた検索文書からの関連画像の適切な参照を可能にするContextual Image Referenceを導入する。本稿では,オープンソースのVLM画像参照機能を大幅に強化するImageRef-VLを提案する。実験により、ImageRef-VLはプロプライエタリなモデルを上回るだけでなく、最先端のオープンソースVLMよりも88%の性能向上を実現していることが示された。
論文参考訳（メタデータ） (2025-01-20T13:43:45Z)
Mitigating Hallucinations on Object Attributes using Multiview Images and Negative Instructions [13.16300262271362]
現在人気のLVLM(Large Vision-Language Models)は、対象属性(HoOA)に対する幻覚に苦しんでいる。本稿では,LVLMにおけるHoOA低減手法を提案する。
論文参考訳（メタデータ） (2025-01-17T07:48:37Z)
FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion [7.322448493179106]
Flow Text with Image Insertion Taskでは、LVLMは画像理解、命令理解、長文解釈において優れた能力を持つ必要がある。 318の高品質な中国語画像テキストニュース記事と307の高品質な英語画像テキストニュース記事を含む、画像挿入ベンチマーク付きフローテキスト(FTII-Bench)を導入し、10の異なるニュースドメインをカバーする。 9つのオープンソースと2つのクローズドソースのLVLMと2つのCLIPベースのモデルを評価した。
論文参考訳（メタデータ） (2024-10-16T13:38:31Z)
SURf: Teaching Large Vision-Language Models to Selectively Utilize Retrieved Information [26.049228685973667]
LVLM(Large Vision-Language Models)は、コンピュータビジョンと自然言語処理の共通点において重要な存在である。現在、ほとんどのLVLMは検索された情報を選択的に活用するのに苦労しており、無関係または誤解を招く参照に敏感である。選択的検索情報(SURf)にLVLMを教えるための自己組織化フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-21T09:36:14Z)
MMRA: A Benchmark for Evaluating Multi-Granularity and Multi-Image Relational Association Capabilities in Large Visual Language Models [29.795942154703642]
本稿では,複数画像関係関連課題と,厳密にキュレートされた多粒度マルチイメージアソシエーションのベンチマークを提案する。実験の結果,MMRAベンチマークでは,現在のマルチイメージLVLMは様々なサブタスクに対して異なる利点と欠点を示すことがわかった。その結果,LVLMは画像の詳細を知覚する強力な能力を示し,複数の画像ヒンジにまたがる情報を関連付ける能力を高め,言語モデルコンポーネントの推論能力の向上に寄与することが示唆された。
論文参考訳（メタデータ） (2024-07-24T15:59:01Z)
MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。 MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。 MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文参考訳（メタデータ） (2024-06-17T17:59:47Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。 MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)
Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。しかし、複数の画像を含む文脈を理解するには不十分である。本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文参考訳（メタデータ） (2024-02-19T14:59:07Z)
Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。 MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文参考訳（メタデータ） (2024-02-13T18:59:05Z)
Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。 QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文参考訳（メタデータ） (2023-12-04T03:18:51Z)
MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文参考訳（メタデータ） (2023-11-30T18:05:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。