論文の概要: Test-Time Scaling Strategies for Generative Retrieval in Multimodal Conversational Recommendations
- arxiv url: http://arxiv.org/abs/2508.18132v1
- Date: Mon, 25 Aug 2025 15:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.843159
- Title: Test-Time Scaling Strategies for Generative Retrieval in Multimodal Conversational Recommendations
- Title(参考訳): マルチモーダル対話レコメンデーションにおける生成検索のためのテスト時間スケーリング戦略
- Authors: Hung-Chun Hsu, Yuan-Ching Kuo, Chao-Han Huck Yang, Szu-Wei Fu, Hanrong Ye, Hongxu Yin, Yu-Chiang Frank Wang, Ming-Feng Tsai, Chuan-Ju Wang,
- Abstract要約: 電子商取引は、複雑なマルチターンユーザーインタラクションを管理する上で、伝統的な製品検索システムの限界を明らかにしている。
本稿では,対話型マルチモーダル製品検索にテスト時間スケーリングを導入する新しいフレームワークを提案する。
提案手法は生成型レトリバー上に構築され,さらに検索精度の向上と,対話を通してユーザ意図の進化と結果の整合性を向上するテストタイムリグレード機構が組み込まれている。
- 参考スコア(独自算出の注目度): 70.94563079082751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid evolution of e-commerce has exposed the limitations of traditional product retrieval systems in managing complex, multi-turn user interactions. Recent advances in multimodal generative retrieval -- particularly those leveraging multimodal large language models (MLLMs) as retrievers -- have shown promise. However, most existing methods are tailored to single-turn scenarios and struggle to model the evolving intent and iterative nature of multi-turn dialogues when applied naively. Concurrently, test-time scaling has emerged as a powerful paradigm for improving large language model (LLM) performance through iterative inference-time refinement. Yet, its effectiveness typically relies on two conditions: (1) a well-defined problem space (e.g., mathematical reasoning), and (2) the model's ability to self-correct -- conditions that are rarely met in conversational product search. In this setting, user queries are often ambiguous and evolving, and MLLMs alone have difficulty grounding responses in a fixed product corpus. Motivated by these challenges, we propose a novel framework that introduces test-time scaling into conversational multimodal product retrieval. Our approach builds on a generative retriever, further augmented with a test-time reranking (TTR) mechanism that improves retrieval accuracy and better aligns results with evolving user intent throughout the dialogue. Experiments across multiple benchmarks show consistent improvements, with average gains of 14.5 points in MRR and 10.6 points in nDCG@1.
- Abstract(参考訳): 電子商取引の急速な進化により、複雑なマルチターンユーザーインタラクションを管理する従来の製品検索システムの限界が明らかになってきた。
マルチモーダル生成検索の最近の進歩は、特に多モーダル大言語モデル(MLLM)をレトリバーとして活用することで、将来性を示している。
しかし、既存のほとんどの手法は単旋律のシナリオに合わせており、鼻で適用した場合に多旋律対話の進化する意図と反復的な性質をモデル化するのに苦労している。
同時に、テストタイムのスケーリングは、反復的推論時間の改善を通じて、大規模言語モデル(LLM)のパフォーマンスを改善するための強力なパラダイムとして登場した。
しかし、その有効性は一般的に2つの条件に依存している:(1) 明確に定義された問題空間(例えば、数学的推論)、(2) モデルが自己修正する能力 -- 会話の積探索でほとんど満たされない条件 -- である。
この設定では、ユーザクエリは曖昧で進化することが多く、MLLMだけでは、固定された製品コーパスでの応答のグラウンド化が困難である。
これらの課題に乗じて,対話型マルチモーダル製品検索にテスト時間スケーリングを導入する新しいフレームワークを提案する。
提案手法は, 生成型検索システム上に構築され, さらにTTR(Test-Time Re rank)機構により, 検索精度を改善し, 対話を通してユーザ意図の進化と結果の整合性を向上する。
複数のベンチマークによる実験では、MRRでは平均14.5ポイント、nDCG@1では10.6ポイントが、一貫した改善が見られた。
関連論文リスト
- F2RVLM: Boosting Fine-grained Fragment Retrieval for Multi-Modal Long-form Dialogue with Vision Language Model [18.21432204057241]
きめ細かいフラグメント検索(FFR)は、クエリ関連フラグメントを見つけるためにモデルを必要とするタスクである。
F2RVLMは、2段階のパラダイムで訓練された生成的検索モデルである。
ドメイン内設定と実ドメイン設定の両方で、人気のあるVision-Language Modelよりも優れています。
論文 参考訳(メタデータ) (2025-08-25T06:42:47Z) - LoopServe: An Adaptive Dual-phase LLM Inference Acceleration System for Multi-Turn Dialogues [55.332261548836485]
LoopServeは、多ターン対話における大規模言語モデルのための適応的な二相推論フレームワークである。
既存のベースラインに比べて一貫して優れた効果を発揮する。
これは、幅広い長文対話タスクにおける推論を著しく加速する。
論文 参考訳(メタデータ) (2025-07-18T06:12:08Z) - Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing [43.75154489681047]
MDS(Multi-Document Summarization)のためのテスト時間スケーリングを利用した新しいフレームワークを提案する。
提案手法では,様々なプロンプトを用いて複数の候補サマリーを生成し,アグリゲータと組み合わせて洗練されたサマリーを生成する。
また,本手法を効果的に評価するために,LCM-ACU(Consistency-Aware Preference)スコアとLLM-Content-Unit(LLM-ACU)スコアという2つの新しいLCMベースの指標を導入する。
論文 参考訳(メタデータ) (2025-02-27T23:34:47Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Re-ranking the Context for Multimodal Retrieval Augmented Generation [28.63893944806149]
Retrieval-augmented Generation (RAG)は、文脈内で応答を生成するために外部知識を組み込むことで、大きな言語モデル(LLM)を強化する。
RAGシステムは固有の課題に直面している: (i) 検索プロセスはユーザクエリ(画像、文書など)への無関係なエントリを選択することができ、 (ii) 視覚言語モデルや GPT-4o のようなマルチモーダル言語モデルは、RAG出力を生成するためにこれらのエントリを処理する際に幻覚を与える。
より高度な関連性尺度を用いることで、知識ベースからより関連性の高い項目を選択して排除することにより、検索プロセスを強化することができることを示す。
論文 参考訳(メタデータ) (2025-01-08T18:58:22Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - DialogGen: Multi-modal Interactive Dialogue System for Multi-turn Text-to-Image Generation [46.085482021301516]
市販のMLLMとT2Iモデルを連携させてマルチモーダル対話システムを構築するためのDialogGenを提案する。
描画プロンプトアライメント、注意深いトレーニングデータキュレーション、エラー修正で構成されている。
ダイアログジェネレーションとユーザスタディに関する実験は、他の最先端モデルと比較してダイアログジェネレーションの有効性を実証している。
論文 参考訳(メタデータ) (2024-03-13T18:00:01Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Enhancing Multi-modal and Multi-hop Question Answering via Structured
Knowledge and Unified Retrieval-Generation [33.56304858796142]
マルチモーダルなマルチホップ質問応答は、異なるモーダルから複数の入力ソースを推論することで質問に答える。
既存の手法は、しばしば別々に証拠を検索し、その後言語モデルを使用して、得られた証拠に基づいて回答を生成する。
本稿では,これらの問題に対処するため,構造化知識と統一検索生成(RG)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:12:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。