論文の概要: VOGUE: A Multimodal Dataset for Conversational Recommendation in Fashion
- arxiv url: http://arxiv.org/abs/2510.21151v1
- Date: Fri, 24 Oct 2025 04:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 06:57:23.379821
- Title: VOGUE: A Multimodal Dataset for Conversational Recommendation in Fashion
- Title(参考訳): VOGUE:ファッションにおける会話推薦のためのマルチモーダルデータセット
- Authors: David Guo, Minqi Sun, Yilun Jiang, Jiazhou Liang, Scott Sanner,
- Abstract要約: VOGUEは、現実的なファッションショッピングシナリオにおける60人の人間対話の新たなデータセットである。
各対話は、共有されたビジュアルカタログ、アイテムメタデータ、ユーザーファッションプロファイルと履歴、およびSeekersとAssistantsの会話後の評価と組み合わせられる。
VOGUEの初期解析では,視覚的に接地された対話の特異なダイナミクスが明らかとなった。
- 参考スコア(独自算出の注目度): 18.017186369021154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal conversational recommendation has emerged as a promising paradigm for delivering personalized experiences through natural dialogue enriched by visual and contextual grounding. Yet, current multimodal conversational recommendation datasets remain limited: existing resources either simulate conversations, omit user history, or fail to collect sufficiently detailed feedback, all of which constrain the types of research and evaluation they support. To address these gaps, we introduce VOGUE, a novel dataset of 60 humanhuman dialogues in realistic fashion shopping scenarios. Each dialogue is paired with a shared visual catalogue, item metadata, user fashion profiles and histories, and post-conversation ratings from both Seekers and Assistants. This design enables rigorous evaluation of conversational inference, including not only alignment between predicted and ground-truth preferences, but also calibration against full rating distributions and comparison with explicit and implicit user satisfaction signals. Our initial analyses of VOGUE reveal distinctive dynamics of visually grounded dialogue. For example, recommenders frequently suggest items simultaneously in feature-based groups, which creates distinct conversational phases bridged by Seeker critiques and refinements. Benchmarking multimodal large language models against human recommenders shows that while MLLMs approach human-level alignment in aggregate, they exhibit systematic distribution errors in reproducing human ratings and struggle to generalize preference inference beyond explicitly discussed items. These findings establish VOGUE as both a unique resource for studying multimodal conversational systems and as a challenge dataset beyond the current recommendation capabilities of existing top-tier multimodal foundation models such as GPT-4o-mini, GPT-5-mini, and Gemini-2.5-Flash.
- Abstract(参考訳): 視覚的・文脈的接地によって強化された自然な対話を通して、パーソナライズされた体験を提供するための有望なパラダイムとして、多モーダルな会話レコメンデーションが登場した。
既存のリソースは会話のシミュレート、ユーザ履歴の省略、あるいは十分な詳細なフィードバックの収集に失敗する。
これらのギャップに対処するために,現実的なファッションショッピングシナリオにおける60人の人間対話の新たなデータセットVOGUEを紹介した。
各対話は、共有されたビジュアルカタログ、アイテムメタデータ、ユーザーファッションプロファイルと履歴、およびSeekersとAssistantsの会話後の評価と組み合わせられる。
この設計は、予測された嗜好と地味な選好の整合性だけでなく、完全な評価分布に対する校正や、明示的で暗黙的なユーザ満足度信号との比較を含む、会話推論の厳密な評価を可能にする。
VOGUEの初期解析では,視覚的に接地された対話の特異なダイナミクスが明らかとなった。
例えば、リコメンダは、しばしば特徴に基づくグループでアイテムを同時に提案する。
ヒューマンレコメンデータに対するマルチモーダルな大規模言語モデルのベンチマークでは、MLLMは人レベルでのアライメントにアプローチする一方で、人間のレーティングを再現する際の系統的な分布誤差を示し、明示的に議論された項目を超えた選好推論の一般化に苦慮している。
これらの結果から,VOGUEは,GPT-4o-mini,GPT-5-mini,Gemini-2.5-Flashといった,既存のトップレベルのマルチモーダル基盤モデルの推奨機能を超える課題データセットとして,マルチモーダルな対話システムを研究するためのユニークなリソースとして確立されている。
関連論文リスト
- Investigating Thematic Patterns and User Preferences in LLM Interactions using BERTopic [4.087884819027264]
本研究では,Lumsys-chat-1mデータセットに対してBERTopicを適用した。
主な目的は、これらの会話におけるテーマパターンを明らかにし、ユーザの好みとの関係を調べることである。
トピックとモデル嗜好の関係を分析し,モデルとトピックのアライメントの傾向を明らかにした。
論文 参考訳(メタデータ) (2025-10-08T21:13:44Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Multimodal Recommendation Dialog with Subjective Preference: A New
Challenge and Benchmark [38.613625892808706]
本稿では,SURE (Multimodal Recommendation Dialog with SUbjective Preference)を提案する。
データは、品質と多様性を保証するために、人間のアノテーションで2つのフェーズで構築されます。
SUREは、営業専門家が提案する主観的嗜好と推奨行為によく言及されている。
論文 参考訳(メタデータ) (2023-05-26T08:43:46Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。