論文の概要: Towards Open-World Referring Expression Comprehension: A Benchmark with Training-free Multi-task Consistency Checker
- arxiv url: http://arxiv.org/abs/2605.25706v1
- Date: Mon, 25 May 2026 11:05:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.825541
- Title: Towards Open-World Referring Expression Comprehension: A Benchmark with Training-free Multi-task Consistency Checker
- Title(参考訳): オープンワールド参照式理解に向けて:トレーニング不要なマルチタスク一貫性チェッカーを用いたベンチマーク
- Authors: Zongjian Wu, Lei Zhang,
- Abstract要約: Referring Expression comprehension (REC) は、所定の式に基づいて画像内の対象物をローカライズすることを目的としている。
OpenRefは複雑な視覚的および言語的シナリオにおけるRECの新しいベンチマークである。
- 参考スコア(独自算出の注目度): 4.731771934553726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring expression comprehension (REC) aims to localize a target object within an image based on a given expression. Although recent advances in vision-language models have led to substantial improvements in REC tasks, current REC benchmarks often hold simple scenarios and the assumption that each expression maps to a unique object. These limitations hinder the deployment of REC models in open-world environments. To fill this gap, we introduce OpenRef, a new benchmark for REC in complex visual and linguistic scenarios. OpenRef features three key advancements: 1) Diverse visual scenarios: spanning diverse visual domains, including ground views, drone views, dark scenes and adverse weather conditions; 2) Variable target counts: breaking the single-target limitation with multi-target and none-target samples; 3) Rich vocabulary types: incorporating proper nouns, polysemous words and ordinal terms to fit a wider range of expression needs. Furthermore, as traditional metrics are insufficient for open-world setting, we leverage F1 to measure grounding accuracy and propose N3R (Negative Relative Rejection Reliability) to assess relative rejection reliability against negative expressions. Finally, we introduce Multi-task Consistency Checker (MCC), a training-free but plug-and-play strategy that enhances model performance with one click by enforcing consistency self-verification. Extensive experiments demonstrate that this work significantly advances the performance of existing REC models in complex scenarios, paving the way for open-world REC. Project page: https://zongjianwu.github.io/openref
- Abstract(参考訳): Referring Expression comprehension (REC) は、所定の式に基づいて画像内の対象物をローカライズすることを目的としている。
近年の視覚言語モデルの進歩によりRECタスクは大幅に改善されているが、現在のRECベンチマークでは単純なシナリオと各表現が一意のオブジェクトにマップされるという仮定がしばしば保持されている。
これらの制限は、オープンワールド環境におけるRECモデルの展開を妨げる。
このギャップを埋めるために、複雑な視覚的および言語的シナリオにおけるRECのための新しいベンチマークであるOpenRefを紹介します。
OpenRefには3つの重要な進歩がある。
1)多様な視覚シナリオ:地上の景色、ドローンの景色、暗い景色、悪天候など多様な視覚領域にまたがる。
2) 可変目標数:マルチターゲット及びノーターゲットサンプルによる単一ターゲット制限を破る。
3) リッチ語彙型: 適切な名詞,多文語,順序語を組み込んで,より幅広い表現ニーズに適合させる。
さらに,従来の指標はオープンワールド設定には不十分であるため,F1を利用してグラウンドディング精度を測定し,負の表現に対する相対的拒絶信頼度を評価するためにN3Rを提案する。
最後に,Multi-task Consistency Checker (MCC)を導入し,一クリックでモデル性能を向上させる。
大規模な実験により、この研究は複雑なシナリオにおける既存のRECモデルの性能を大幅に向上させ、オープンワールドRECへの道を開いた。
プロジェクトページ:https://zongjianwu.github.io/openref
関連論文リスト
- Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks [65.37131487318273]
Ref-Advは、言語的に非自明な表現とターゲットを特定するのに必要な情報のみをペアリングすることでショートカットを抑制する現代的なRECベンチマークである。
データセットは、実際の画像への参照表現を含み、ハードイントラクタでキュレートされ、否定を含む推論ファセットで注釈付けされる。
RefCOCO、RefCOCO+、RefCOCOgの強い結果にもかかわらず、モデルはRef-Advで著しく低下し、ショートカットと視覚的推論とグラウンドディングのギャップに依存することが明らかになった。
論文 参考訳(メタデータ) (2026-02-27T10:47:26Z) - SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation [58.80001825332851]
Referring Image (RIS) は、自然言語で表現された画像に対象のオブジェクトを分割することを目的としている。
最近の手法は主に「赤い車」や「左少女」のような単純な表現に焦点を当てている
論文 参考訳(メタデータ) (2025-10-11T10:50:58Z) - KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge [1.5833270109954136]
本研究では,実世界の知識に基づいて構築されたKnowDR-RECを提案する。
我々は、KnowDR-REC上で16の最先端マルチモーダルモデルを評価し、既存のMLLMが知識駆動型視覚接地作業に苦戦していることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-08-12T19:43:44Z) - Referring Expression Instance Retrieval and A Strong End-to-End Baseline [37.47466772169063]
テキスト画像検索は、画像レベルの記述に基づいてギャラリーからターゲット画像を取得する。
Referring Expressionは、インスタンスレベルの記述を使用して、所定のイメージ内でターゲットオブジェクトをローカライズする。
我々は、インスタンスレベルの検索とローカライゼーションの両方をサポートする textbfReferring Expression Instance Retrieval (REIR) という新しいタスクを導入する。
論文 参考訳(メタデータ) (2025-06-23T02:28:44Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - RefDrone: A Challenging Benchmark for Referring Expression Comprehension in Drone Scenes [44.34174574185866]
RefDroneはドローンシーンのRECベンチマークである。
RDAgentは、RECタスクのための半自動アノテーションツールである。
NGDINOは、マルチターゲットおよびノーターゲットケースを扱うために設計された新しい手法である。
論文 参考訳(メタデータ) (2025-02-01T10:44:11Z) - CountGD: Multi-Modal Open-World Counting [54.88804890463491]
本稿では,画像中のオープン語彙オブジェクトの数値化の一般化と精度の向上を目的とする。
本稿では,最初のオープンワールドカウントモデルであるCountGDを紹介した。
論文 参考訳(メタデータ) (2024-07-05T16:20:48Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。