論文の概要: Chat-Driven Text Generation and Interaction for Person Retrieval
- arxiv url: http://arxiv.org/abs/2509.12662v1
- Date: Tue, 16 Sep 2025 04:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.884184
- Title: Chat-Driven Text Generation and Interaction for Person Retrieval
- Title(参考訳): 人物検索のためのチャット駆動テキスト生成とインタラクション
- Authors: Zequn Xie, Chuxin Wang, Sihang Cai, Yeqiang Wang, Shulei Wang, Tao Jin,
- Abstract要約: 我々は,Multi-Turn Text Generation(MTG)とMulti-Turn Text Interaction(MTI)の2つの補完モジュールを紹介する。
MTGはMLLMとのシミュレートされた対話を通じて豊かな擬似ラベルを生成し、手動による監督なしに細粒度で多様な視覚的記述を生成する。
MTIは動的対話に基づく推論を通じて推論時にユーザクエリを洗練し、曖昧で不完全、曖昧な記述をシステムが解釈し、解決できるようにする。
- 参考スコア(独自算出の注目度): 16.448356660477682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based person search (TBPS) enables the retrieval of person images from large-scale databases using natural language descriptions, offering critical value in surveillance applications. However, a major challenge lies in the labor-intensive process of obtaining high-quality textual annotations, which limits scalability and practical deployment. To address this, we introduce two complementary modules: Multi-Turn Text Generation (MTG) and Multi-Turn Text Interaction (MTI). MTG generates rich pseudo-labels through simulated dialogues with MLLMs, producing fine-grained and diverse visual descriptions without manual supervision. MTI refines user queries at inference time through dynamic, dialogue-based reasoning, enabling the system to interpret and resolve vague, incomplete, or ambiguous descriptions - characteristics often seen in real-world search scenarios. Together, MTG and MTI form a unified and annotation-free framework that significantly improves retrieval accuracy, robustness, and usability. Extensive evaluations demonstrate that our method achieves competitive or superior results while eliminating the need for manual captions, paving the way for scalable and practical deployment of TBPS systems.
- Abstract(参考訳): テキストベースの人物検索(TBPS)は、自然言語記述を用いて大規模データベースから人物画像の検索を可能にし、監視アプリケーションにおいて重要な価値を提供する。
しかし、大きな課題は、スケーラビリティと実践的なデプロイメントを制限する高品質なテキストアノテーションを取得するための労働集約的なプロセスにある。
そこで本稿では,Multi-Turn Text Generation (MTG) とMulti-Turn Text Interaction (MTI) の2つの相補的モジュールを紹介する。
MTGはMLLMとのシミュレートされた対話を通じて豊かな擬似ラベルを生成し、手動による監督なしに細粒度で多様な視覚的記述を生成する。
MTIは動的対話に基づく推論を通じて推論時にユーザクエリを洗練し、システムが曖昧で不完全、曖昧な記述を解釈し、解決できるようにする。
MTGとMTIは共に、検索精度、堅牢性、ユーザビリティを大幅に改善する統一的でアノテーションのないフレームワークを形成している。
本手法は,手動キャプションの必要をなくし,TBPSシステムのスケーラブルかつ実用的な展開の道を開くとともに,競争力や優位性を発揮できることを示す。
関連論文リスト
- Multimodal RAG Enhanced Visual Description [3.2771631221674333]
事前訓練された大型マルチモーダルモデル(LMM)は、テキスト表現と視覚表現のミスアライメントによって特徴づけられるモダリティギャップに遭遇する。
本稿では,RAG(Retrieval-Augmented Generation)を利用した軽量な学習自由アプローチを提案する。
2つのベンチマークマルチモーダルデータセットの実験結果は、大幅な改善を示している。
論文 参考訳(メタデータ) (2025-08-06T19:04:38Z) - A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing [43.75154489681047]
MDS(Multi-Document Summarization)のためのテスト時間スケーリングを利用した新しいフレームワークを提案する。
提案手法では,様々なプロンプトを用いて複数の候補サマリーを生成し,アグリゲータと組み合わせて洗練されたサマリーを生成する。
また,本手法を効果的に評価するために,LCM-ACU(Consistency-Aware Preference)スコアとLLM-Content-Unit(LLM-ACU)スコアという2つの新しいLCMベースの指標を導入する。
論文 参考訳(メタデータ) (2025-02-27T23:34:47Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action [96.33509740612486]
MM-REACTは、マルチモーダル推論とアクションを達成するために、ChatGPTとビジョンエキスパートのプールを統合するシステムパラダイムである。
MM-REACTのプロンプト設計により、言語モデルはマルチモーダル情報を受け入れ、関連づけ、処理することができる。
論文 参考訳(メタデータ) (2023-03-20T18:31:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。