Fugu-MT 論文翻訳(概要): FBCIR: Balancing Cross-Modal Focuses in Composed Image Retrieval

論文の概要: FBCIR: Balancing Cross-Modal Focuses in Composed Image Retrieval

arxiv url: http://arxiv.org/abs/2603.11520v1
Date: Thu, 12 Mar 2026 04:05:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:25.859046
Title: FBCIR: Balancing Cross-Modal Focuses in Composed Image Retrieval
Title（参考訳）: FBCIR:コンポジション画像検索におけるクロスモーダルフォーカスのバランス
Authors: Chenchen Zhao, Jianhuan Zhuo, Muxi Chen, Zhaohua Zhang, Wenyu Jiang, Tianwen Jiang, Qiuyong Xiao, Jihong Zhang, Qiang Xu,
Abstract要約: 合成画像検索(CIR)は、テキストイメージの入力ペアで提示される視覚的内容と意味的な修正を共同で推論するために、マルチモーダルモデルを必要とする。 FBCIR(FBCIR)は、モデル決定に最も重要な視覚的およびテキスト的入力要素を識別するマルチモーダル焦点解釈法である。
参考スコア（独自算出の注目度）: 12.652218923459742
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Composed image retrieval (CIR) requires multi-modal models to jointly reason over visual content and semantic modifications presented in text-image input pairs. While current CIR models achieve strong performance on common benchmark cases, their accuracies often degrades in more challenging scenarios where negative candidates are semantically aligned with the query image or text. In this paper, we attribute this degradation to focus imbalances, where models disproportionately attend to one modality while neglecting the other. To validate this claim, we propose FBCIR, a multi-modal focus interpretation method that identifies the most crucial visual and textual input components to a model's retrieval decisions. Using FBCIR, we report that focus imbalances are prevalent in existing CIR models, especially under hard negative settings. Building on the analyses, we further propose a CIR data augmentation workflow that facilitates existing CIR datasets with curated hard negatives designed to encourage balanced cross-modal reasoning. Extensive experiments across multiple CIR models demonstrate that the proposed augmentation consistently improves performance in challenging cases, while maintaining their capabilities on standard benchmarks. Together, our interpretation method and data augmentation workflow provide a new perspective on CIR model diagnosis and robustness improvements.
Abstract（参考訳）: 合成画像検索(CIR)は、テキストイメージの入力ペアで提示される視覚的内容と意味的な修正を共同で推論するために、マルチモーダルモデルを必要とする。現在のCIRモデルは、一般的なベンチマークケースで強力なパフォーマンスを達成するが、負の候補がクエリイメージやテキストとセマンティックに一致しているような、より困難なシナリオでは、その精度は低下することが多い。本稿では,この劣化を集中不均衡とみなし,モデルが一方のモダリティに不均等に対応し,他方を無視する。この主張を検証するために、モデルの検索決定に最も重要な視覚的およびテキスト的入力要素を特定するマルチモーダルフォーカス解釈法であるFBCIRを提案する。 FBCIRを用いて、既存のCIRモデル、特にハードネガティブな設定において、焦点の不均衡が頻繁に発生することを報告した。さらに,この分析に基づいて,バランスの取れた相互モーダル推論を促進するために,キュレートされたハードネガを持つ既存のCIRデータセットを容易にするためのCIRデータ拡張ワークフローを提案する。複数のCIRモデルにわたる大規模な実験により、提案された拡張は、標準ベンチマークでの能力を維持しながら、挑戦的なケースにおけるパフォーマンスを一貫して改善することを示した。我々の解釈手法とデータ拡張ワークフローは、CIRモデル診断とロバストネス改善の新しい視点を提供する。

関連論文リスト

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文参考訳（メタデータ） (2026-03-09T07:15:23Z)
Bias Detection and Rotation-Robustness Mitigation in Vision-Language Models and Generative Image Models [0.0]
VLM(Vision-Language Models)と生成画像モデル(Generative Image Models)は、マルチモーダルタスクにおいて顕著なパフォーマンスを実現している。本研究では、最先端のビジョン言語および生成モデルにおけるバイアス伝搬とロバスト性について検討する。本稿では,データ拡張,表現アライメント,モデルレベルの正規化を併用した回転ロバスト緩和戦略を提案する。
論文参考訳（メタデータ） (2026-01-09T00:36:11Z)
Generative Editing in the Joint Vision-Language Space for Zero-Shot Composed Image Retrieval [11.724675700368316]
Composed Image Retrieval (CIR)は、参照画像とテキスト修正を組み合わせることで、きめ細かいビジュアル検索を可能にする。マルチモーダルアライメントのために設計された高効率・データ効率の新たな生成編集フレームワークであるFusion-Diffを提案する。
論文参考訳（メタデータ） (2025-12-01T13:04:55Z)
Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA) 我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-11-15T08:39:22Z)
CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。 CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文参考訳（メタデータ） (2025-10-09T09:41:45Z)
CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
A Comprehensive Survey on Composed Image Retrieval [54.54527281731775]
Composed Image Retrieval (CIR)は、ユーザがマルチモーダルクエリを使ってターゲットイメージを検索できる、新しくて困難なタスクである。現在、この分野のタイムリーな概要を提供するため、CIRの包括的なレビューは行われていない。我々は、ACM TOIS、SIGIR、CVPRなど、トップカンファレンスやジャーナルで120以上の出版物から洞察を合成する。
論文参考訳（メタデータ） (2025-02-19T01:37:24Z)
Data Roaming and Quality Assessment for Composed Image Retrieval [25.452015862927766]
Composed Image Retrieval (CoIR)は、画像とテキストのモダリティを組み合わせたクエリで、ユーザがより効果的にインテントを表現できるようにする。我々は,既存のものより10倍大きい新しいCoIRデータセットであるLaSCoデータセットを紹介する。また、新しいCoIRベースラインであるCASE(Cross-Attention driven Shift)も導入する。
論文参考訳（メタデータ） (2023-03-16T16:02:24Z)
Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文参考訳（メタデータ） (2022-09-14T22:04:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。