論文の概要: DeliCIR: Deliberative Test-Time Evolutionary Hierarchical Multi-Agents for Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2605.22478v2
- Date: Sat, 23 May 2026 05:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.959551
- Title: DeliCIR: Deliberative Test-Time Evolutionary Hierarchical Multi-Agents for Composed Image Retrieval
- Title(参考訳): DeliCIR: 画像検索のための決定的テスト時間進化的階層的マルチエージェント
- Authors: Xingtian Pei, Yukun Song, Changwei Wang, Shunpeng Chen, Rongtao Xu, Shengpeng Xu, Shibiao Xu,
- Abstract要約: Composed Image Retrieval (CIR)は、参照画像の視覚的連続性を保存することと、修正テキストで指定されたセマンティック変数を忠実に実行することの両方を必要とする。
本稿では,体験自己進化とテスト時間スケーリング法(TTS)を初めてCIRに導入した,ワンストップ階層型パーセプション・ツー・ディリベレーションフレームワーク(PDF)を提案する。
本研究では、経験駆動型自己進化とTSは、ゼロショットの微細なマルチメディア検索を実現するための、非常に有望でスケーラブルな経路であることを示す。
- 参考スコア(独自算出の注目度): 30.843984141042828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Image Retrieval (CIR) requires both preserving the visual continuity of the reference image and faithfully executing the semantic variables specified in the modification text, which constitute the core challenge of the task. Existing methods often suffer from Perception Myopia in a single space, or fall into Logic Drift in iterative collaboration due to the perception ceiling of the underlying retriever. To address this issue, we propose a one-stop hierarchical Perception-to-Deliberation Framework (PDF), which, to the best of our knowledge, is the first to introduce experience self-evolution and Test-Time Scaling Laws (TTS) into CIR. Relying on a hierarchical multi-agent architecture, PDF first utilizes an Intent Routing Manager to dynamically dispatch multi-view Worker perception signals based on modification intents to construct a high-recall candidate pool. Subsequently, the Decision Manager combines a Training-free Reasoning Policy Distillation mechanism with a Tournament-style TTS (T-TTS) strategy to achieve self-evolving fine-grained reasoning, yielding the final retrieval results. Experimental results demonstrate that PDF achieves SOTA performance on three benchmark datasets: CIRR, CIRCO, and FashionIQ. This study indicates that experience-driven self-evolution and TTS represent a highly promising and scalable path for achieving zero-shot fine-grained multimedia retrieval. The code will be made publicly available upon acceptance.
- Abstract(参考訳): Composed Image Retrieval (CIR) は、参照画像の視覚的連続性を保存することと、タスクのコアチャレンジを構成する修正テキストで指定された意味変数を忠実に実行することの両方を必要とする。
既存の手法は、一つの空間において知覚ミオピアに悩まされる場合や、下層のレトリバーの知覚天井のために反復的な協調において論理的ドリフトに陥る場合が多い。
この問題に対処するため,我々は,経験的自己進化とテスト時間スケーリング法(TTS)を初めてCIRに導入する,ワンストップ階層型パーセプション・トゥ・ディリベレーション・フレームワーク(PDF)を提案する。
階層的なマルチエージェントアーキテクチャに基づいて、PDFはまずIntent Routing Managerを使用して、修正意図に基づいたマルチビューWorker知覚信号を動的にディスパッチし、ハイリコール候補プールを構築する。
その後、トレーニングフリー推論ポリシー蒸留機構とトーナメントスタイルのTS(T-TTS)戦略を組み合わせることで、自己進化的なきめ細かい推論を実現し、最終的な検索結果を得る。
実験の結果, PDFはCIRR, CIRCO, FashionIQの3つのベンチマークデータセットでSOTA性能を達成した。
本研究では、経験駆動型自己進化とTSは、ゼロショットの微細なマルチメディア検索を実現するための、非常に有望でスケーラブルな経路であることを示す。
コードは受理時に公開されます。
関連論文リスト
- PDCR: Perception-Decomposed Confidence Reward for Vision-Language Reasoning [80.94559742826083]
Reinforcement Learning with Verifiable Rewards (RLVR) は伝統的に、粗末で結果に基づく信号に依存している。
近年の研究では,高コストな外部モデルを必要としないステップレベルのガイダンスを提供することで,詳細なモデル固有の信号を提供することで,言語推論のトレーニングを効果的に向上することが示された。
一助文には有効であるが,この大域的な報酬を視覚言語推論(V-L)に適用することは準最適戦略である。
本稿では、報酬構造とタスクの不均一な性質を整合させることにより、この問題を解決するフレームワークであるパーセプション分解信頼回復(PDCR:Perception-Decomposed Confidence Reward)を提案する。
論文 参考訳(メタデータ) (2026-05-13T12:55:18Z) - ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval [64.14282916266998]
Composed Image Retrievalは、参照画像と修正テキストからなるハイブリッドクエリに基づいてターゲット画像を取得することを目的としている。
本稿では,診断・生成・再定義パイプラインに従うモデルに依存しないフレームワークであるReCALLを提案する。
CIRRとFashionIQの実験では、ReCALLは継続的に劣化した機能を再検討し、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-02T04:52:54Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - SQUARE: Semantic Query-Augmented Fusion and Efficient Batch Reranking for Training-free Zero-Shot Composed Image Retrieval [2.624097337766623]
Composed Image Retrieval (CIR) は、ユーザが指定したテキスト修正を取り入れつつ、参照画像の視覚的内容を保存するターゲット画像の検索を目的としている。
ZS-CIRを強化するために,MLLM(Multimodal Large Language Models)を利用した新しい2段階学習自由フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-30T14:41:24Z) - ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。
最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。
第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文 参考訳(メタデータ) (2025-03-13T08:43:24Z) - CoTMR: Chain-of-Thought Multi-Scale Reasoning for Training-Free Zero-Shot Composed Image Retrieval [13.59418209417664]
Zero-Shot Composed Image Retrieval (ZS-CIR) は、サンプルをトレーニングすることなく、合成クエリから情報を統合してターゲット画像を取得することを目的としている。
我々は,ZS-CIRのためのトレーニングフリーフレームワークであるCoTMRを提案し,新しいChain-of-Thought(CoT)とマルチスケール推論を提案する。
論文 参考訳(メタデータ) (2025-02-28T08:12:23Z) - Pseudo-triplet Guided Few-shot Composed Image Retrieval [20.040511832864503]
Composed Image Retrieval (CIR)は、マルチモーダルクエリでターゲット画像を取得することを目的とした課題である。
PTG-FSCIRと呼ばれる2段階の擬似三重項誘導方式を提案する。
最初の段階では、純画像データから擬似三重項を生成するために、注意型マスキングとキャプションに基づく擬似三重項生成法を提案する。
第2段階では,3重項に基づく挑戦的CIR微調整法を提案し,擬似修正テキストに基づくサンプルの挑戦的スコア推定戦略を設計する。
論文 参考訳(メタデータ) (2024-07-08T14:53:07Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。