論文の概要: F2RVLM: Boosting Fine-grained Fragment Retrieval for Multi-Modal Long-form Dialogue with Vision Language Model
- arxiv url: http://arxiv.org/abs/2508.17714v1
- Date: Mon, 25 Aug 2025 06:42:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.66395
- Title: F2RVLM: Boosting Fine-grained Fragment Retrieval for Multi-Modal Long-form Dialogue with Vision Language Model
- Title(参考訳): F2RVLM:視覚言語モデルを用いた多モード長文対話のためのきめ細かいフラグメント検索
- Authors: Hanbo Bi, Zhiqiang Yuan, Zexi Jia, Jiapei Zhang, Chongyang Li, Peixiang Luo, Ying Deng, Xiaoyue Duan, Jinchao Zhang,
- Abstract要約: きめ細かいフラグメント検索(FFR)は、クエリ関連フラグメントを見つけるためにモデルを必要とするタスクである。
F2RVLMは、2段階のパラダイムで訓練された生成的検索モデルである。
ドメイン内設定と実ドメイン設定の両方で、人気のあるVision-Language Modelよりも優れています。
- 参考スコア(独自算出の注目度): 18.21432204057241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional dialogue retrieval aims to select the most appropriate utterance or image from recent dialogue history. However, they often fail to meet users' actual needs for revisiting semantically coherent content scattered across long-form conversations. To fill this gap, we define the Fine-grained Fragment Retrieval (FFR) task, requiring models to locate query-relevant fragments, comprising both utterances and images, from multimodal long-form dialogues. As a foundation for FFR, we construct MLDR, the longest-turn multimodal dialogue retrieval dataset to date, averaging 25.45 turns per dialogue, with each naturally spanning three distinct topics. To evaluate generalization in real-world scenarios, we curate and annotate a WeChat-based test set comprising real-world multimodal dialogues with an average of 75.38 turns. Building on these resources, we explore existing generation-based Vision-Language Models (VLMs) on FFR and observe that they often retrieve incoherent utterance-image fragments. While optimized for generating responses from visual-textual inputs, these models lack explicit supervision to ensure semantic coherence within retrieved fragments. To this end, we propose F2RVLM, a generative retrieval model trained in a two-stage paradigm: (1) supervised fine-tuning to inject fragment-level retrieval knowledge, and (2) GRPO-based reinforcement learning with multi-objective rewards promoting semantic precision, relevance, and contextual coherence. To handle varying intra-fragment complexity, from locally dense to sparsely distributed, we introduce difficulty-aware curriculum sampling that ranks training instances by model-predicted difficulty and gradually exposes the model to harder samples. This boosts reasoning ability in long, multi-turn contexts. F2RVLM outperforms popular VLMs in both in-domain and real-domain settings, demonstrating superior retrieval performance.
- Abstract(参考訳): 従来の対話検索は,近年の対話履歴から最も適切な発話や画像を選択することを目的としている。
しかし、長文の会話に散らばって意味的に一貫性のあるコンテンツを再考するユーザのニーズを満たすことができないことが多い。
このギャップを埋めるために、我々は、マルチモーダルな長文対話から発声と画像の両方を含むクエリ関連フラグメントを見つけるモデルを必要とする、きめ細かいフラグメント検索(FFR)タスクを定義した。
FFRの基礎として,これまでで最長のマルチモーダル対話検索データセットであるMLDRを構築し,対話毎に平均25.45回,それぞれが3つの異なるトピックに自然に分散している。
実世界のシナリオにおける一般化を評価するため、平均75.38回転で実世界のマルチモーダル対話からなるWeChatベースのテストセットをキュレートし、注釈付けする。
これらの資源に基づいて、FFR上の既存の世代ベースの視覚言語モデル(VLM)を探索し、不整合な発話画像の断片をしばしば取り出すことを観察する。
視覚的テキスト入力から応答を生成するために最適化されているが、これらのモデルは、取得したフラグメント内のセマンティックコヒーレンスを保証するための明確な監督を欠いている。
そこで本研究では,F2RVLMを提案する。F2RVLMは,(1)断片レベルの検索知識を注入するための微調整を指導し,(2)意味的精度,関連性,文脈的コヒーレンスを促進する多目的報酬を用いたGRPOに基づく強化学習を行う。
局所的な密集から疎分布に至るまで,様々なフラッグメント内複雑性に対処するために,モデルの予測困難さによってトレーニングインスタンスをランク付けし,より難しいサンプルにモデルを徐々に公開する,難易度対応のカリキュラムサンプリングを導入する。
これにより、長いマルチターンコンテキストにおける推論能力が向上する。
F2RVLMは、ドメイン内設定と実ドメイン設定の両方で一般的なVLMよりも優れており、検索性能が優れている。
関連論文リスト
- Test-Time Scaling Strategies for Generative Retrieval in Multimodal Conversational Recommendations [70.94563079082751]
電子商取引は、複雑なマルチターンユーザーインタラクションを管理する上で、伝統的な製品検索システムの限界を明らかにしている。
本稿では,対話型マルチモーダル製品検索にテスト時間スケーリングを導入する新しいフレームワークを提案する。
提案手法は生成型レトリバー上に構築され,さらに検索精度の向上と,対話を通してユーザ意図の進化と結果の整合性を向上するテストタイムリグレード機構が組み込まれている。
論文 参考訳(メタデータ) (2025-08-25T15:38:56Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach [33.231639257323536]
本稿では,対話型テキスト・画像検索タスクにおける対話型コンテキストクエリの問題に対処する。
対話形式のコンテキストを再構成することにより、既存の視覚的対話データから検索モデルを微調整する必要がなくなる。
対象画像の属性に関する非冗長な質問を生成するために,LLM質問機を構築した。
論文 参考訳(メタデータ) (2024-06-05T16:09:01Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。