論文の概要: Fine-grained Fragment Retrieval in Multi-modal Long-form Dialogues
- arxiv url: http://arxiv.org/abs/2606.04591v1
- Date: Wed, 03 Jun 2026 08:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.628565
- Title: Fine-grained Fragment Retrieval in Multi-modal Long-form Dialogues
- Title(参考訳): 多モード長文対話におけるき裂の微細検索
- Authors: Hanbo Bi, Zhiqiang Yuan, Chongyang Li, Qiwei Yan, Zexi Jia, Jiapei Zhang, Xiaoyue Duan, Yingchao Feng, Jinchao Zhang, Jie Zhou,
- Abstract要約: きめ細かいフラグメント検索 (FFR) は、多モーダルな長文対話における意味論的に関連する多文の断片を見つける。
我々は、強化学習で訓練された世代ベース検索モデルであるF2RVLMを紹介する。
オフラインのフラグメントレベルのインデックスとオンライン検索を組み合わせた2段階のシステムであるFFRSを開発した。
- 参考スコア(独自算出の注目度): 23.7089483793977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread adoption of multi-modal communication platforms, long-form dialogues interleaving text and images have become increasingly common. Users often need to retrieve coherent dialogue fragments related to specific topics, rather than isolated utterances. We propose Fine-grained Fragment Retrieval (FFR), which locates semantically relevant multi-utterance, multi-image fragments in multi-modal long-form dialogues. We explore two settings: (1) FFR within Single-Dialogue, retrieving fragments from a given dialogue; and (2) FFR within Dialogue Corpus, retrieving from a large-scale corpus for open-domain scenarios. For (1), we introduce F2RVLM, a generation-based retrieval model trained with reinforcement learning, using multi-objective rewards and difficulty-aware curriculum sampling to enhance fragment coherence. For (2), we develop FFRS, a two-stage system combining offline fragment-level indexing with online retrieval. Specifically, each dialogue is decomposed into minimal semantic fragments encoded by a Fragment Embedding Model (FEM) into a vector database; at inference, FEM rapidly recalls Top-K candidates, and F2RVLM performs fine-grained reasoning to identify the most relevant sub-content. To support FFR, we construct MLDR, the longest multi-modal dialogue retrieval dataset to date, and a WeChat-based real-world test set. Experiments on both benchmarks demonstrate that F2RVLM and FFRS consistently achieve superior performance across single-dialogue and corpus-level FFR.
- Abstract(参考訳): マルチモーダル通信プラットフォームの普及に伴い、テキストと画像間の長文対話がますます一般的になっている。
ユーザーは孤立した発話ではなく、特定のトピックに関連するコヒーレントな対話フラグメントを検索する必要があることが多い。
マルチモーダルな長文対話において,意味的に関連する複数発話,複数画像の断片を識別する微細きめのフラグメント検索(FFR)を提案する。
本研究では,(1)単一ダイアログ内のFFR,(2)対話コーパス内のフラグメントの検索,(2)オープンドメインシナリオのための大規模コーパスからの検索の2つの設定について検討する。
1)F2RVLMは強化学習で訓練された世代別検索モデルであり,多目的報酬と難解なカリキュラムサンプリングを用いて断片コヒーレンスを向上させる。
FFRSはオフラインのフラグメントレベルの索引付けとオンライン検索を組み合わせた2段階のシステムである。
具体的には、各対話をFEM(Fragment Embedding Model)によって符号化された最小の意味断片に分解し、ベクトルデータベースに分解する。
FFRをサポートするために,これまでで最長のマルチモーダル対話検索データセットであるMLDRと,WeChatベースの実世界テストセットを構築した。
両ベンチマークの実験により、F2RVLMとFFRSは、シングルダイアログとコーパスレベルのFFRで一貫して優れた性能を発揮することが示された。
関連論文リスト
- F2RVLM: Boosting Fine-grained Fragment Retrieval for Multi-Modal Long-form Dialogue with Vision Language Model [18.21432204057241]
きめ細かいフラグメント検索(FFR)は、クエリ関連フラグメントを見つけるためにモデルを必要とするタスクである。
F2RVLMは、2段階のパラダイムで訓練された生成的検索モデルである。
ドメイン内設定と実ドメイン設定の両方で、人気のあるVision-Language Modelよりも優れています。
論文 参考訳(メタデータ) (2025-08-25T06:42:47Z) - On Mitigating Data Sparsity in Conversational Recommender Systems [69.70761335240738]
会話レコメンデータシステム(CRS)は、対話中のテキスト情報を通じてユーザの好みをキャプチャする。
対話空間は広大で言語的に多様であり、アイテム空間は長い尾とスパース分布を示す。
既存の手法では,(1)リッチテキストの活用による多様な対話表現の一般化,(2)重度の疎度下での情報表現の学習に苦慮している。
論文 参考訳(メタデータ) (2025-07-01T06:54:51Z) - Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach [33.231639257323536]
本稿では,対話型テキスト・画像検索タスクにおける対話型コンテキストクエリの問題に対処する。
対話形式のコンテキストを再構成することにより、既存の視覚的対話データから検索モデルを微調整する必要がなくなる。
対象画像の属性に関する非冗長な質問を生成するために,LLM質問機を構築した。
論文 参考訳(メタデータ) (2024-06-05T16:09:01Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - Which One Are You Referring To? Multimodal Object Identification in
Situated Dialogue [50.279206765971125]
本稿では,会話や状況から多モーダル入力を解釈する3つの手法について検討する。
最適手法であるシーン対話アライメントは,SIMMC 2.1ベースラインと比較して20%F1スコアで性能を向上する。
論文 参考訳(メタデータ) (2023-02-28T15:45:20Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。