論文の概要: Memory-Augmented Query Intent Understanding for Efficient Chat-based Image Retrieval
- arxiv url: http://arxiv.org/abs/2605.17365v1
- Date: Sun, 17 May 2026 10:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.924887
- Title: Memory-Augmented Query Intent Understanding for Efficient Chat-based Image Retrieval
- Title(参考訳): 効率的なチャットベース画像検索のためのメモリ拡張クエリインテント理解
- Authors: Xianke Chen, Daizong Liu, Yushuo Lou, Xin Tan, Xun Yang, Shuhui Wang, Xun Wang, Jianfeng Dong,
- Abstract要約: チャットに基づく画像検索により,多ラウンド対話によるユーザ意図の反復的明確化と洗練が可能となる。
このタスクの主な課題は、対話ラウンド全体でユーザーのクエリインテントを動的に理解し、更新することである。
本稿では,チャットベースの画像検索タスクのための,メモリベースの新規かつ効率的なユーザ意図更新フレームワークを提案する。
- 参考スコア(独自算出の注目度): 74.93546115702155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different from traditional text-to-image retrieval tasks, chat-based image retrieval allows the human-interactive system to iteratively clarify and refine user intent through multi-round dialogue, thereby achieving more fine-grained retrieval results. The key challenge in this task lies in dynamically understanding and updating the user's query intent across dialogue rounds. Although existing works have achieved great performance on this new task, they simply handle history query information either by directly concatenating all previous queries into a long textual sequence or by relying on large language models to reconstruct the current query from history. Such strategies are computationally redundant and easily lead to inconsistent intent representations as the dialogue progresses. To alleviate these issues, this paper proposes a novel and efficient memory-based user intent updating framework for the chat-based image retrieval task, called Memory-Augmented Query Intent Understanding (MAQIU). It introduces a lightweight memorization module that dynamically aggregates and evolves the semantic representation of query intent across dialogues, while a memory recall mechanism is further employed to prevent intent forgetting and enhance long-term semantic integrity. In addition, MAQIU also integrates historical image retrieval results as visual guidance, allowing the model to strengthen cross-round correlations and refine current visual understanding. Extensive experiments demonstrate that MAQIU achieves substantial performance gains while maintaining high computational efficiency, reducing dialogue encoding FLOPs by 86.4\% compared with the prior baseline ChatIR. Source code is available at https://github.com/HuiGuanLab/MAQIU.
- Abstract(参考訳): 従来のテキストと画像の検索タスクと異なり、チャットベースの画像検索により、多ラウンド対話によるユーザ意図の反復的明確化と洗練が可能となり、よりきめ細かい検索結果が得られる。
このタスクの主な課題は、対話ラウンド全体でユーザーのクエリインテントを動的に理解し、更新することである。
既存の作業は、この新しいタスクにおいて大きなパフォーマンスを実現しているが、過去のクエリを直接長いテキストシーケンスにまとめるか、あるいは履歴から現在のクエリを再構築するために大きな言語モデルに依存することで、履歴クエリ情報を処理する。
このような戦略は計算的に冗長であり、対話が進むにつれて、矛盾した意図表現につながる。
これらの問題を緩和するために,本稿では,メモリ拡張クエリインテント理解(MAQIU)と呼ばれる,チャットベースの画像検索タスクのための,新規で効率的なメモリベースユーザインテント更新フレームワークを提案する。
対話間でクエリインテントのセマンティック表現を動的に集約し、進化させる軽量な記憶モジュールを導入し、メモリリコール機構は、インテントを忘れないようにし、長期の意味的整合性を向上する。
さらに、MAQIUは、過去の画像検索結果をビジュアルガイダンスとして統合し、クロスラウンド相関を強化し、現在の視覚的理解を洗練させる。
大規模な実験により、MAQIUは高い計算効率を維持しながらかなりの性能向上を達成し、従来のベースラインのChatIRと比較して、FLOPのエンコーディングを86.4\%削減した。
ソースコードはhttps://github.com/HuiGuanLab/MAQIUで入手できる。
関連論文リスト
- ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval [24.076540962866236]
画像検索領域に対話型クエリ書き換えタスクを導入する。
完全な対話履歴に基づいて構築されたCQRは、ユーザの最終的なクエリを簡潔でセマンティックに完全なものに書き換える。
画像検索において,複数のSOTAマルチモーダルモデルをReCQRデータセット上でベンチマークし,その性能を評価する。
論文 参考訳(メタデータ) (2026-01-19T13:10:54Z) - MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval [26.585985828583304]
我々は、アライメント中にテキストの特徴を融合させることなく、モダリティインタラクションを実現する検索フレームワークMIReを紹介する。
提案手法では,テキスト駆動型信号を視覚表現に戻すことなく,テキストクエリを視覚埋め込みに対応させることができる。
実験により,我々の事前学習戦略はマルチモーダルクエリの理解を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - Toward Conversational Agents with Context and Time Sensitive Long-term Memory [8.085414868117917]
最近まで、RAGに関するほとんどの研究は、ウィキペディアのような巨大なテキストデータベースからの情報検索に重点を置いてきた。
我々は,静的なデータベース検索と比較して,長文の対話データからの効果的な検索は2つの問題に直面していると論じる。
我々は、最近の長文でシミュレートされた会話のデータセットの上に構築された、あいまいで時間に基づく質問の新しいデータセットを生成する。
論文 参考訳(メタデータ) (2024-05-29T18:19:46Z) - Effective and Efficient Conversation Retrieval for Dialogue State Tracking with Implicit Text Summaries [48.243879779374836]
LLM (Large Language Models) を用いたDST (Few-shot dialogue state tracking) では,会話検索を効果的かつ効率的に行うことで,学習の迅速化を図っている。
従来は検索キーやクエリとして生の対話コンテキストを使用していた。
会話のテキスト要約に基づいて会話検索を行う。
LLMに基づく会話要約器がクエリとキー生成に採用され、効果的な内部製品探索が可能となる。
論文 参考訳(メタデータ) (2024-02-20T14:31:17Z) - Walking Down the Memory Maze: Beyond Context Limit through Interactive
Reading [63.93888816206071]
我々は,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介した。クエリを受信すると,モデルがこのツリーをナビゲートして関連する情報を検索し,十分な情報を収集すると応答する。
その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
論文 参考訳(メタデータ) (2023-10-08T06:18:14Z) - UniMC: A Unified Framework for Long-Term Memory Conversation via
Relevance Representation Learning [15.313416157905685]
We propose a Unified framework for Long-term Memory Conversations (UniMC)。
主タスクを確率グラフに基づいて3つのサブタスクに分解する。
各サブタスクは、クエリとメモリ間の関連性を計算するための表現を学習する。
論文 参考訳(メタデータ) (2023-06-18T12:30:50Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。