論文の概要: LaViC: Adapting Large Vision-Language Models to Visually-Aware Conversational Recommendation
- arxiv url: http://arxiv.org/abs/2503.23312v1
- Date: Sun, 30 Mar 2025 04:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.053864
- Title: LaViC: Adapting Large Vision-Language Models to Visually-Aware Conversational Recommendation
- Title(参考訳): LaViC: 視覚的会話勧告に大規模視線モデルを適用する
- Authors: Hyunsik Jeon, Satoshi Koide, Yu Wang, Zhankui He, Julian McAuley,
- Abstract要約: LaViCは、コンパクトな画像表現を対話ベースのレコメンデーションシステムに統合する。
Redditの会話をAmazonの商品リストに合わせることで、新しいデータセットを構築します。
LaViCはテキストのみの会話レコメンデーション手法とオープンソースのビジョン言語ベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 24.215914514990004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational recommender systems engage users in dialogues to refine their needs and provide more personalized suggestions. Although textual information suffices for many domains, visually driven categories such as fashion or home decor potentially require detailed visual information related to color, style, or design. To address this challenge, we propose LaViC (Large Vision-Language Conversational Recommendation Framework), a novel approach that integrates compact image representations into dialogue-based recommendation systems. LaViC leverages a large vision-language model in a two-stage process: (1) visual knowledge self-distillation, which condenses product images from hundreds of tokens into a small set of visual tokens in a self-distillation manner, significantly reducing computational overhead, and (2) recommendation prompt tuning, which enables the model to incorporate both dialogue context and distilled visual tokens, providing a unified mechanism for capturing textual and visual features. To support rigorous evaluation of visually-aware conversational recommendation, we construct a new dataset by aligning Reddit conversations with Amazon product listings across multiple visually oriented categories (e.g., fashion, beauty, and home). This dataset covers realistic user queries and product appearances in domains where visual details are crucial. Extensive experiments demonstrate that LaViC significantly outperforms text-only conversational recommendation methods and open-source vision-language baselines. Moreover, LaViC achieves competitive or superior accuracy compared to prominent proprietary baselines (e.g., GPT-3.5-turbo, GPT-4o-mini, and GPT-4o), demonstrating the necessity of explicitly using visual data for capturing product attributes and showing the effectiveness of our vision-language integration. Our code and dataset are available at https://github.com/jeon185/LaViC.
- Abstract(参考訳): 会話レコメンデータシステムは、ユーザのニーズを洗練し、よりパーソナライズされた提案を提供するために、対話にユーザを巻き込む。
テキスト情報は多くの領域で十分だが、ファッションやホームデコレーションのような視覚的に駆動されるカテゴリーは、色、スタイル、デザインに関する詳細な視覚情報を必要とする可能性がある。
この課題に対処するために,コンパクトな画像表現を対話型レコメンデーションシステムに統合するLaViC(Large Vision-Language Conversational Recommendation Framework)を提案する。
LaViCは、2段階のプロセスにおいて、大きな視覚言語モデルを活用する:(1) 視覚知識の自己蒸留、数百個のトークンからの製品イメージを小さな視覚トークンに自己蒸留的に凝縮し、計算オーバーヘッドを著しく低減する、(2) 推奨のプロンプトチューニングにより、対話コンテキストと蒸留された視覚トークンの両方を組み込むことができ、テキストおよび視覚的特徴をキャプチャするための統一的なメカニズムを提供する。
視覚的に意識した会話レコメンデーションの厳密な評価を支援するため,複数の視覚指向カテゴリ(ファッション,美容,家など)でRedditの会話をAmazon製品リストに合わせることで,新しいデータセットを構築した。
このデータセットは、視覚的な詳細が不可欠である領域において、現実的なユーザクエリと製品外観をカバーします。
大規模な実験により、LaViCはテキストのみの会話レコメンデーション手法とオープンソースのビジョン言語ベースラインを著しく上回っていることが示された。
さらに、LaViCは、優れたプロプライエタリベースライン(GPT-3.5-turbo、GPT-4o-mini、GPT-4o)と比較して、競合的または優れた精度を実現し、製品属性のキャプチャに視覚データを明示的に使用することの必要性を示し、ビジョン言語統合の有効性を示した。
私たちのコードとデータセットはhttps://github.com/jeon185/LaViC.comで公開されています。
関連論文リスト
- Visual Adaptive Prompting for Compositional Zero-Shot Learning [0.0]
VLM(Vision-Language Models)は、視覚およびテキストデータの共同表現を学習する際、印象的な能力を示す。
CZSLは、トレーニング中に明示的に遭遇しなかった属性やオブジェクトのような新しい視覚的プリミティブの組み合わせに一般化するモデルを必要とする。
意味的特徴と視覚的特徴のギャップを埋める視覚適応型プロンプトシステム(VAPS)を提案する。
論文 参考訳(メタデータ) (2025-02-27T17:17:43Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - ReSee: Responding through Seeing Fine-grained Visual Knowledge in
Open-domain Dialogue [34.223466503256766]
視覚的知識をよりきめ細かな粒度に分割することで多モーダル対話を構築するための新しいパラダイムを提供する。
拡張視覚情報の精度と多様性を高めるため、インターネットや大規模な画像データセットからそれらを検索する。
テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。
論文 参考訳(メタデータ) (2023-05-23T02:08:56Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。
最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z) - Building Goal-Oriented Dialogue Systems with Situated Visual Context [12.014793558784955]
スクリーン付きバーチャルアシスタントの急増に伴い、次世代のエージェントはスクリーンコンテキストを理解する必要がある。
本稿では,対話エージェントの次の行動とその議論を対話と視覚の両方で協調的に条件付けする,新しい多モーダル対話フレームワークを提案する。
我々のモデルは、色や形状などの視覚的特徴と、視覚的実体に関連する価格や星のレーティングといったメタデータに基づく特徴を認識できる。
論文 参考訳(メタデータ) (2021-11-22T23:30:52Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。