論文の概要: COMBINER: Composed Image Retrieval Guided by Attribute-based Neighbor Relations
- arxiv url: http://arxiv.org/abs/2606.04604v1
- Date: Wed, 03 Jun 2026 08:43:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.635388
- Title: COMBINER: Composed Image Retrieval Guided by Attribute-based Neighbor Relations
- Title(参考訳): COMBINER:Attribute-based Neighbor Relations による画像検索
- Authors: Zixu Li, Yupeng Hu, Zhiwei Chen, Haokun Wen, Xuemeng Song, Liqiang Nie,
- Abstract要約: By attrIbute-based NEighbor Relations (COMBINER) によるCOMposed画像検索ネットワークについて紹介する。
具体的には,まずアダプティブ・セマンティック・ディスタングルメント・モジュールを設計する。
次に, クロスモーダルな統一プロトタイプを構築可能なUnified Prototypeベースのコンポジションモジュールを提案する。
最後にDual Relations Modelingモジュールを導入し、属性の類似性に基づいてペアと隣り合う関係をマイニングする。
- 参考スコア(独自算出の注目度): 73.40758654107724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Image Retrieval (CIR) represents a challenging retrieval task that targets locating specific images through multimodal inputs. Despite recent progress in CIR techniques, prior approaches often overlook cases where images appear visually alike yet differ in attributes, potentially undermining both multimodal feature fusion and similarity modeling. To mitigate this limitation, we design a unified representation of cross-modal features based on attribute prototypes. Nevertheless, the task is far from straightforward, owing to three core issues: (1) entanglement in attribute-level semantics, (2) inconsistency across modalities, and (3) supervised signal missing. To tackle the above obstacles, we introduce a COMposed image retrieval network guided By attrIbute-based NEighbor Relations (COMBINER). Specifically, we first design an Adaptive Semantic Disentanglement module, which is capable of disentangling attribute features based on multimodal primitive features. Secondly, we propose a Unified Prototype-based Composition module, which can construct cross-modal unified prototypes (CUP) and facilitate multimodal feature composition. Finally, we introduce a Dual Relations Modeling module, which can mine pairwise and neighbor relations based on attribute similarity. Compared to traditional neighbor relations modeling CIR methods, COMBINER represents the first study addressing the phenomenon of visually similar but attribute-unrelated samples. It achieves a more accurate understanding of the semantic relations among samples by employing an attribute prototype-based similarity metric. Comprehensive experiments conducted on three benchmark datasets confirm the effectiveness of our proposed COMBINER. The implementation of our method will be accessed at https://github.com/Lee-zixu/COMBINER
- Abstract(参考訳): Composed Image Retrieval (CIR)は、マルチモーダル入力による特定の画像の位置決めを目標とする、困難な検索タスクである。
近年のCIR技術の発展にもかかわらず、以前のアプローチでは、画像が視覚的に類似しているが属性が異なる場合がしばしば見過ごされ、マルチモーダルな特徴融合と類似性モデリングの両方を損なう可能性がある。
この制限を緩和するため,属性のプロトタイプに基づくクロスモーダルな特徴の統一表現を設計する。
1)属性レベルのセマンティクスの絡み合い、(2)モダリティ間の不整合、(3)教師付き信号の欠如である。
上記の障害に対処するために、AttrIbute-based NEighbor Relations (COMBINER) でガイドされたCOMposed画像検索ネットワークを導入する。
具体的には、まずアダプティブ・セマンティック・ディスタングルメント・モジュールを設計し、マルチモーダルなプリミティブな特徴に基づいて属性機能をアンタングできる。
第2に,クロスモーダル統一プロトタイプ(CUP)を構築し,マルチモーダル特徴合成を容易にする統一プロトタイプベースコンポジションモジュールを提案する。
最後にDual Relations Modelingモジュールを導入し、属性の類似性に基づいてペアと隣り合う関係をマイニングする。
従来のCIR法と比較すると、COMBINERは視覚的に類似しているが属性非関連なサンプルの現象に対処する最初の研究である。
属性プロトタイプに基づく類似度尺度を用いて、サンプル間の意味的関係をより正確に理解する。
3つのベンチマークデータセットで実施した総合実験により,提案したCOMBINERの有効性が確認された。
私たちのメソッドの実装はhttps://github.com/Lee-zixu/COMBINERでアクセスされます。
関連論文リスト
- The Triangle of Similarity: A Multi-Faceted Framework for Comparing Neural Network Representations [5.415604247164019]
3つの相補的な視点を組み合わせたフレームワークであるTriangle of similarityを提案する。
アーキテクチャファミリは、表現的類似性の主要な決定要因であり、異なるクラスタを形成します。
いくつかのモデルペアでは、プルーニングは表現を正規化し、共有計算コアを公開する。
論文 参考訳(メタデータ) (2026-01-23T12:15:43Z) - CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval [54.15776146365823]
Composed Image Retrieval (CIR)では、ユーザーは参照画像と操作テキストの両方を使用してターゲットイメージを検索できる。
CSMCIRは3つの相乗的コンポーネントを通して効率的なクエリターゲットアライメントを実現する統一表現フレームワークである。
論文 参考訳(メタデータ) (2026-01-07T09:21:38Z) - PanMatch: Unleashing the Potential of Large Vision Models for Unified Matching Models [80.65273820998875]
頑健な対応マッチングのための汎用基盤モデルであるPanMatchを提案する。
我々の重要な洞察は、任意の2フレーム対応タスクが2次元変位推定フレームワーク内で処理可能であることである。
PanMatchは、偏差推定アルゴリズムを前例のない一般化能力で実現し、マルチタスク統合を実現する。
論文 参考訳(メタデータ) (2025-07-11T08:18:52Z) - Comparative Analysis of AI Agent Architectures for Entity Relationship Classification [1.6887793771613606]
本研究では,3つの異なるAIエージェントアーキテクチャの比較分析を行い,関係分類を行う。
エージェントアーキテクチャは,(1)反射的自己評価,(2)階層的タスク分解,(3)新しいマルチエージェント動的サンプル生成機構を含む。
実験により,マルチエージェントの協調が標準のショットプロンプトより一貫して優れていることが実証された。
論文 参考訳(メタデータ) (2025-06-03T04:19:47Z) - MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - Symmetrical Joint Learning Support-query Prototypes for Few-shot Segmentation [33.33249452130038]
クラス内変動の重要な問題に対処するFew-Shot(FSS)のための新しいフレームワークであるSym-Netを提案する。
我々は、クエリとプロトタイプの両方を対称的に学習し、学習プロセスが他方よりも1つのセット(サポートまたはクエリ)を好まないようにします。
実験の結果,提案したSym-Netは最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-07-27T17:37:56Z) - I2SRM: Intra- and Inter-Sample Relationship Modeling for Multimodal
Information Extraction [10.684005956288347]
本稿では,本課題に対するサンプル内およびサンプル間関係モデリング(I2SRM)手法を提案する。
提案手法は,Twitter-2015で77.12%のF1スコア,Twitter-2017で88.40%のF1スコア,MNREで84.12%のF1スコアと競合する結果を得た。
論文 参考訳(メタデータ) (2023-10-10T05:50:25Z) - Hierarchical Matching and Reasoning for Multi-Query Image Retrieval [113.44470784756308]
マルチクエリ画像検索のための階層マッチング・推論ネットワーク(HMRN)を提案する。
MQIRを3つの階層的なセマンティック表現に分解し、きめ細かい局所的な詳細、文脈的グローバルスコープ、高レベルの固有の相関をキャプチャする責任を負う。
我々のHMRNは最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2023-06-26T07:03:56Z) - Learnable Pillar-based Re-ranking for Image-Text Retrieval [119.9979224297237]
画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T04:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。