Fugu-MT 論文翻訳(概要): Benchmarking Composed Image Retrieval for Applied Earth Observation

論文の概要: Benchmarking Composed Image Retrieval for Applied Earth Observation

arxiv url: http://arxiv.org/abs/2605.24442v1
Date: Sat, 23 May 2026 07:25:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:18.06005
Title: Benchmarking Composed Image Retrieval for Applied Earth Observation
Title（参考訳）: 応用地球観測のためのベンチマーク合成画像検索
Authors: Bill Psomas, Dionysis Christopoulos, Thanasis Petropoulos, Nikos Efthymiadis, Ioannis Kakogeorgiou, Ondřej Chum, Yannis Avrithis, Giorgos Tolias, Konstantinos Karantzalos,
Abstract要約: リモートセンシング合成画像検索(RSCIR)は、大規模な衛星画像アーカイブの検索を可能にする。 RSCIRは、ターゲットの検索意図を表現するフレキシブルなインターフェースを提供する。統一ベンチマークとアプリケーション指向の研究を通じて、このギャップに対処する。
参考スコア（独自算出の注目度）: 17.510153724080528
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Remote sensing composed image retrieval (RSCIR) enables search in large satellite image archives using composed queries that combine a reference image with a textual modifier. Although RSCIR offers a flexible interface for expressing targeted retrieval intent, the transferability of modern composition methods to Earth observation (EO) imagery and their relevance to operational EO workflows remain underexplored. We address this gap through a unified benchmark and an application-oriented study. First, we systematically adapt and evaluate representative composed image retrieval methods with six vision-language backbones on PatternCom under a standardized protocol, analyzing their behavior across backbones, composition strategies, and query types. Second, we introduce xView2-CIR, a change-centric dataset for disaster and damage monitoring, where retrieval is conditioned on scene identity and a target post-event state. Our results show that training-free composition methods provide strong and scalable baselines for EO retrieval, while change-centric retrieval presents different challenges from attribute-based retrieval, particularly due to the need to preserve scene identity. Overall, this study establishes a practical benchmark for RSCIR and positions composed retrieval as a complementary tool for remote sensing image retrieval, archive exploration, and change analysis. The dataset and code are available at https://github.com/billpsomas/rscir.
Abstract（参考訳）: リモートセンシング合成画像検索(RSCIR)は、参照画像とテキスト修飾子を組み合わせた合成クエリを用いて、大規模な衛星画像アーカイブの検索を可能にする。 RSCIRは、対象とする検索意図を表現するフレキシブルなインタフェースを提供するが、現代の合成手法の地球観測(EO)画像への転送可能性や、運用EOワークフローとの関連性は未定のままである。統一ベンチマークとアプリケーション指向の研究を通じて、このギャップに対処する。まず,PatternCom上の6つの視覚言語バックボーンを用いた代表的な合成画像検索手法を標準化プロトコルで体系的に適応し,その動作をバックボーン,コンポジション戦略,クエリタイプで解析する。第2に,災害・被害監視のための変更中心のデータセットであるxView2-CIRを導入する。提案手法は,EO検索において強靭でスケーラブルなベースラインを提供する一方,変化中心検索は属性ベース検索と異なる課題を呈し,特にシーンの同一性を維持する必要がある。本研究は,RTCIRの実用的なベンチマークと,リモートセンシング画像検索,アーカイブ探索,変更解析の補完ツールとして構成された位置合成検索を確立する。データセットとコードはhttps://github.com/billpsomas/rscir.comで公開されている。

関連論文リスト

Beyond Semantic Search: Towards Referential Anchoring in Composed Image Retrieval [56.72697928941446]
Composed Image Retrieval (CIR)は、参照画像と修正テキストを組み合わせた柔軟なマルチモーダルクエリを可能にすることで、大きな可能性を実証している。我々は、厳密なインスタンスレベルの一貫性を規定する新しいきめ細かい検索タスクであるObject-Anchored Composed Image Retrieval (OACIR)を提案する。
論文参考訳（メタデータ） (2026-04-07T03:43:01Z)
Text-based Aerial-Ground Person Retrieval [55.31140361809554]
本研究はTAG-PR(Text-based Aerial-Ground Person Retrieval)を紹介する。異質な空中・地上からの人物画像をテキスト記述で検索することを目的としている。
論文参考訳（メタデータ） (2025-11-11T15:49:04Z)
Instance-Level Composed Image Retrieval [34.04479584450632]
i-CIRは、インスタンスレベルのクラス定義に焦点を当てた、新しい評価データセットである。その設計とキュレーションプロセスは、将来の研究を促進するためにデータセットをコンパクトに保つ。事前学習された視覚・言語モデル(VLM)を,BASICと呼ばれる学習自由なアプローチで活用する。
論文参考訳（メタデータ） (2025-10-29T10:57:59Z)
Composed Object Retrieval: Object-level Retrieval via Composed Expressions [71.47650333199628]
Composed Object Retrieval (COR)は、画像レベルの検索を超えてオブジェクトレベルの精度を達成するための新しいタスクである。 COR127KはCORの最初の大規模ベンチマークであり、408カテゴリの様々な意味変換を持つ127,166個の検索三重項を含む。また、参照領域エンコーディング、適応型視覚・テキストインタラクション、および領域レベルのコントラスト学習を統合した統合エンドツーエンドモデルであるCOREを提案する。
論文参考訳（メタデータ） (2025-08-06T13:11:40Z)
Referring Expression Instance Retrieval and A Strong End-to-End Baseline [37.47466772169063]
テキスト画像検索は、画像レベルの記述に基づいてギャラリーからターゲット画像を取得する。 Referring Expressionは、インスタンスレベルの記述を使用して、所定のイメージ内でターゲットオブジェクトをローカライズする。我々は、インスタンスレベルの検索とローカライゼーションの両方をサポートする textbfReferring Expression Instance Retrieval (REIR) という新しいタスクを導入する。
論文参考訳（メタデータ） (2025-06-23T02:28:44Z)
iSEARLE: Improving Textual Inversion for Zero-Shot Composed Image Retrieval [26.101116761577796]
Composed Image Retrieval (CIR) は、相対キャプションに指定された変化を取り入れつつ、参照画像と視覚的に類似したターゲット画像を検索することを目的としている。ラベル付きトレーニングデータセットを必要とせずにCIRに対処する新しいタスクであるZero-Shot CIR(ZS-CIR)を導入する。 CIRCOと呼ばれるオープンドメインベンチマークデータセットを提示し、各クエリに複数の基底真理とセマンティック分類をラベル付けする。
論文参考訳（メタデータ） (2024-05-05T14:39:06Z)
BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文参考訳（メタデータ） (2022-07-09T07:14:44Z)
Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR) 我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文参考訳（メタデータ） (2022-04-24T08:10:06Z)
Fusing Local Similarities for Retrieval-based 3D Orientation Estimation of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文参考訳（メタデータ） (2022-03-16T08:53:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。