論文の概要: Revisiting Human-in-the-Loop Object Retrieval with Pre-Trained Vision Transformers
- arxiv url: http://arxiv.org/abs/2604.00809v1
- Date: Wed, 01 Apr 2026 12:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.976634
- Title: Revisiting Human-in-the-Loop Object Retrieval with Pre-Trained Vision Transformers
- Title(参考訳): 事前学習型視覚変換器による検索対象の再検討
- Authors: Kawtar Zaher, Olivier Buisson, Alexis Joly,
- Abstract要約: Human-in-the-Loop Object Retrievalは、関心のクラスのオブジェクトを含むイメージを反復的に検索するタスクである。
トレーニング済みのViT表現を活用し、重要な設計問題に対処することで、タスクを再考する。
- 参考スコア(独自算出の注目度): 1.8631279231581521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building on existing approaches, we revisit Human-in-the-Loop Object Retrieval, a task that consists of iteratively retrieving images containing objects of a class-of-interest, specified by a user-provided query. Starting from a large unlabeled image collection, the aim is to rapidly identify diverse instances of an object category relying solely on the initial query and the user's Relevance Feedback, with no prior labels. The retrieval process is formulated as a binary classification task, where the system continuously learns to distinguish between relevant and non-relevant images to the query, through iterative user interaction. This interaction is guided by an Active Learning loop: at each iteration, the system selects informative samples for user annotation, thereby refining the retrieval performance. This task is particularly challenging in multi-object datasets, where the object of interest may occupy only a small region of the image within a complex, cluttered scene. Unlike object-centered settings where global descriptors often suffice, multi-object images require more adapted, localized descriptors. In this work, we formulate and revisit the Human-in-the-Loop Object Retrieval task by leveraging pre-trained ViT representations, and addressing key design questions, including which object instances to consider in an image, what form the annotations should take, how Active Selection should be applied, and which representation strategies best capture the object's features. We compare several representation strategies across multi-object datasets highlighting trade-offs between capturing the global context and focusing on fine-grained local object details. Our results offer practical insights for the design of effective interactive retrieval pipelines based on Active Learning for object class retrieval.
- Abstract(参考訳): 既存のアプローチに基づいて、ユーザが提供するクエリによって指定された関心のクラスのオブジェクトを含むイメージを反復的に検索するタスクであるHuman-in-the-Loop Object Retrievalを再検討する。
大規模なラベル付きイメージコレクションから始めて、初期クエリとユーザの関連フィードバックのみに依存するオブジェクトカテゴリの多様なインスタンスを、事前のラベルなしで迅速に識別することを目的としている。
検索プロセスはバイナリ分類タスクとして定式化され、反復的なユーザインタラクションを通じて、システムはクエリに関連する画像と非関連画像の区別を継続的に学習する。
このインタラクションはアクティブラーニングループによってガイドされ、各イテレーションでユーザアノテーションのインフォメーションサンプルを選択して、検索性能を改良する。
このタスクは、複雑な散らかったシーン内の画像の小さな領域のみを対象とするマルチオブジェクトデータセットにおいて特に困難である。
グローバルなディスクリプタが十分であるオブジェクト中心の設定とは異なり、マルチオブジェクトのイメージはより適応的でローカライズされたディスクリプタを必要とする。
本研究では、トレーニング済みのViT表現を活用し、画像内でどのオブジェクトインスタンスを考慮すべきか、アノテーションはどの形をとるべきか、Active Selectionをどのように適用すべきか、どの表現戦略がオブジェクトの特徴を最もよく捉えているのかといった重要な設計問題に対処することで、Human-in-the-Loop Object Retrievalタスクを定式化し、再検討する。
我々は,グローバルなコンテキストを捉えることと,粒度の細かい局所オブジェクトの詳細に焦点を合わせることのトレードオフを強調する多目的データセット間の表現戦略を比較した。
本研究では,オブジェクトクラス検索のためのアクティブラーニングに基づく効果的な対話型検索パイプラインの設計に関する実践的な知見を提供する。
関連論文リスト
- Composed Object Retrieval: Object-level Retrieval via Composed Expressions [71.47650333199628]
Composed Object Retrieval (COR)は、画像レベルの検索を超えてオブジェクトレベルの精度を達成するための新しいタスクである。
COR127KはCORの最初の大規模ベンチマークであり、408カテゴリの様々な意味変換を持つ127,166個の検索三重項を含む。
また、参照領域エンコーディング、適応型視覚・テキストインタラクション、および領域レベルのコントラスト学習を統合した統合エンドツーエンドモデルであるCOREを提案する。
論文 参考訳(メタデータ) (2025-08-06T13:11:40Z) - Find your Needle: Small Object Image Retrieval via Multi-Object Attention Optimization [17.18636164860152]
本研究では,小物体画像検索(SoIR)の課題に対処する。その目的は,特定の小物体を含む画像を,散らばったシーンで検索することである。
主な課題は、画像内のすべてのオブジェクトを効果的に表現する、スケーラブルで効率的な検索のための単一のイメージ記述子を構築することである。
専用多目的事前学習フェーズを組み込んだ新しい検索フレームワークであるMaO(Multi-object Attention Optimization)を導入する。
論文 参考訳(メタデータ) (2025-03-10T08:27:02Z) - ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - Object-Centric Open-Vocabulary Image-Retrieval with Aggregated Features [11.112981323262337]
本稿では,オブジェクト中心のオープン語彙画像検索に対して,シンプルながら効果的なアプローチを提案する。
提案手法は,CLIPから抽出した濃密な埋め込みをコンパクトな表現に集約する。
3つのデータセットのグローバルな特徴的アプローチよりもはるかに優れた結果を得ることで,タスクに対する提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-09-26T15:13:09Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - Universal Instance Perception as Object Discovery and Retrieval [90.96031157557806]
UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。
入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。
UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-12T14:28:24Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。