論文の概要: DAFM: Dynamic Adaptive Fusion for Multi-Model Collaboration in Composed Image Retrieval
- arxiv url: http://arxiv.org/abs/2511.05020v1
- Date: Fri, 07 Nov 2025 06:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.694246
- Title: DAFM: Dynamic Adaptive Fusion for Multi-Model Collaboration in Composed Image Retrieval
- Title(参考訳): DAFM: 合成画像検索における複数モデル協調のための動的適応核融合
- Authors: Yawei Cai, Jiapeng Mi, Nan Ji, Haotian Rong, Yawei Zhang, Zhangti Li, Wenbin Guo, Rensong Xie,
- Abstract要約: 合成画像検索(CIR)におけるマルチモデル協調のための動的適応融合(DAFM)を提案する。
提案手法は,CIRR上のRecall@10,CIRR上のRmean84.43,FashionIQ上のRmean67.48を実現し,最近の強いベースラインを最大4.5%超えた。
- 参考スコア(独自算出の注目度): 2.330678113289435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Image Retrieval (CIR) is a cross-modal task that aims to retrieve target images from large-scale databases using a reference image and a modification text. Most existing methods rely on a single model to perform feature fusion and similarity matching. However, this paradigm faces two major challenges. First, one model alone can't see the whole picture and the tiny details at the same time; it has to handle different tasks with the same weights, so it often misses the small but important links between image and text. Second, the absence of dynamic weight allocation prevents adaptive leveraging of complementary model strengths, so the resulting embedding drifts away from the target and misleads the nearest-neighbor search in CIR. To address these limitations, we propose Dynamic Adaptive Fusion (DAFM) for multi-model collaboration in CIR. Rather than optimizing a single method in isolation, DAFM exploits the complementary strengths of heterogeneous models and adaptively rebalances their contributions. This not only maximizes retrieval accuracy but also ensures that the performance gains are independent of the fusion order, highlighting the robustness of our approach. Experiments on the CIRR and FashionIQ benchmarks demonstrate consistent improvements. Our method achieves a Recall@10 of 93.21 and an Rmean of 84.43 on CIRR, and an average Rmean of 67.48 on FashionIQ, surpassing recent strong baselines by up to 4.5%. These results confirm that dynamic multi-model collaboration provides an effective and general solution for CIR.
- Abstract(参考訳): Composed Image Retrieval (CIR) は、参照画像と修正テキストを用いて大規模データベースからターゲット画像を取得することを目的としたクロスモーダルタスクである。
既存のほとんどのメソッドは、機能融合と類似性マッチングを実行するために単一のモデルに依存している。
しかし、このパラダイムは2つの大きな課題に直面している。
まず、ひとつのモデルだけでは、画像全体と小さな詳細を同時に見ることができません。
第二に、動的重み付けの欠如は相補的なモデル強度の適応的活用を妨げ、その結果の埋め込みは目標から遠ざかって、CIRにおける最寄りの探索を誤解させる。
これらの制約に対処するため,CIRにおけるマルチモデル協調のための動的適応融合(DAFM)を提案する。
DAFMは単一手法を単独で最適化するのではなく、異種モデルの相補的な強みを利用し、それらの寄与を適応的に再バランスさせる。
これは、検索精度を最大化するだけでなく、性能向上が融合順序に依存しないことを保証し、我々のアプローチの堅牢性を強調します。
CIRRとFashionIQベンチマークの実験は、一貫した改善を示している。
提案手法は,CIRR上のRecall@10,CIRR上のRmean84.43,FashionIQ上のRmean67.48を実現し,最近の強いベースラインを最大4.5%超えた。
これらの結果は、動的マルチモデル協調がCIRに効果的で汎用的なソリューションを提供することを確認した。
関連論文リスト
- Towards Reversible Model Merging For Low-rank Weights [5.100622189286672]
モデルマージは、複数の微調整されたモデルを1セットの重みにまとめることを目的としており、すべてのソースタスクでうまく機能する。
従来のマージ法を低ランクウェイトに適用すると, マージモデルの性能が著しく低下することを示す。
すべてのアダプタを1組の重みに分解する代わりに、コンパクトな基底を構築する。
これは、単一のマージモデルを生成するのではなく、再構成可能なモデル空間を生成するものとしてマージされる。
論文 参考訳(メタデータ) (2025-10-15T23:22:38Z) - Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching [31.42132290162457]
IMD (Image Feature Matching with a Pre-trained Diffusion model) と呼ばれる新しいフレームワークを2つのパーツで導入する。
グローバルセマンティクスを重視したコントラッシブラーニングに基づく基礎モデルを用いた支配的なソリューションとは異なり、生成的拡散モデルを統合する。
提案したIMMは,評価されたベンチマークにおいて新たな最先端性を確立し,IMIMの優れた12%の改善は,この手法の誤認識を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2025-07-14T14:28:15Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - PS-ReID: Advancing Person Re-Identification and Precise Segmentation with Multimodal Retrieval [38.530536338075684]
人物再識別(ReID)は、セキュリティ監視や刑事捜査などの応用において重要な役割を果たす。
画像とテキストの入力を組み合わせたマルチモーダルモデルであるbf PS-ReIDを提案する。
実験の結果、PS-ReIDは、ReIDとセグメンテーションタスクの両方において、ユニモーダルクエリベースのモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-03-27T15:14:03Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Weight Scope Alignment: A Frustratingly Easy Method for Model Merging [40.080926444789085]
非I.D.データは平均的なモデル融合にとって大きな課題となる。
本稿では,異なるトレーニング条件下での重量範囲の変化を明らかにする。
幸いなことに、各層のパラメータは基本的にガウス分布に従っており、これは新しく単純な正規化アプローチを刺激している。
論文 参考訳(メタデータ) (2024-08-22T09:13:27Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Deep Equilibrium Diffusion Restoration with Parallel Sampling [120.15039525209106]
拡散モデルに基づく画像復元(IR)は、拡散モデルを用いて劣化した画像から高品質な(本社)画像を復元し、有望な性能を達成することを目的としている。
既存のほとんどの手法では、HQイメージをステップバイステップで復元するために長いシリアルサンプリングチェーンが必要であるため、高価なサンプリング時間と高い計算コストがかかる。
本研究では,拡散モデルに基づくIRモデルを異なる視点,すなわちDeqIRと呼ばれるDeQ(Deep equilibrium)固定点系で再考することを目的とする。
論文 参考訳(メタデータ) (2023-11-20T08:27:56Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - VMLoc: Variational Fusion For Learning-Based Multimodal Camera Localization [36.11674066519118]
本稿では,センサの入力を共通の潜在空間に融合させる,VMLocと呼ばれるエンドツーエンドフレームワークを提案する。
バニラ変分オートエンコーダの目的関数を直接適用する従来のマルチモーダル変分法とは異なり、カメラのローカライゼーションを正確に推定する方法を示す。
論文 参考訳(メタデータ) (2020-03-12T14:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。