論文の概要: Zero-Shot Referring Expression Comprehension via Visual-Language True/False Verification
- arxiv url: http://arxiv.org/abs/2509.09958v1
- Date: Fri, 12 Sep 2025 04:32:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.974578
- Title: Zero-Shot Referring Expression Comprehension via Visual-Language True/False Verification
- Title(参考訳): 視覚言語真偽検証によるゼロショット参照表現の理解
- Authors: Jeffrey Liu, Rongbin Hu,
- Abstract要約: ゼロショットワークフローは、REC固有のトレーニングを使わずに、競争力や優れたパフォーマンスを達成することができることを示す。
我々の手法は、RECをボックスワイドな視覚言語検証として再構成する。
タスク固有の事前学習ではなく,ワークフロー設計が強力なゼロショットREC性能を実現することを示す。
- 参考スコア(独自算出の注目度): 1.5777959896871054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Expression Comprehension (REC) is usually addressed with task-trained grounding models. We show that a zero-shot workflow, without any REC-specific training, can achieve competitive or superior performance. Our approach reformulates REC as box-wise visual-language verification: given proposals from a COCO-clean generic detector (YOLO-World), a general-purpose VLM independently answers True/False queries for each region. This simple procedure reduces cross-box interference, supports abstention and multiple matches, and requires no fine-tuning. On RefCOCO, RefCOCO+, and RefCOCOg, our method not only surpasses a zero-shot GroundingDINO baseline but also exceeds reported results for GroundingDINO trained on REC and GroundingDINO+CRG. Controlled studies with identical proposals confirm that verification significantly outperforms selection-based prompting, and results hold with open VLMs. Overall, we show that workflow design, rather than task-specific pretraining, drives strong zero-shot REC performance.
- Abstract(参考訳): Referring Expression Comprehension (REC)は通常、タスク訓練されたグラウンドモデルで対処される。
ゼロショットワークフローは、REC固有のトレーニングを使わずに、競争力や優れたパフォーマンスを達成することができることを示す。
我々は,RECをボックスワイドな視覚言語検証として再構成する:COCOクリーンジェネリックディテクター(YOLO-World)の提案により,汎用VLMは各領域のTrue/Falseクエリに独立して応答する。
この単純な手順は、クロスボックスの干渉を減らし、禁忌と多重一致をサポートし、微調整を必要としない。
RefCOCO, RefCOCO+, RefCOCOg では, ゼロショットベースラインを超えるだけでなく, REC と GroundingDINO+CRG で訓練した GroundingDINO の報告結果を上回っている。
同一の提案による制御された研究は、検証が選択ベースのプロンプトを著しく上回り、結果がオープンなVLMで保持されることを確認した。
全体として、タスク固有の事前学習ではなく、ワークフロー設計が強力なゼロショットRECパフォーマンスを駆動していることが示される。
関連論文リスト
- SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - Revisiting Large Language Models as Zero-shot Relation Extractors [8.953462875381888]
リレーショナル抽出(RE)は、ゼロショット設定下であっても、一定のラベル付きまたはラベルなしのデータを一貫して含む。
近年の研究では、大きな言語モデル(LLM)が、単に自然言語のプロンプトを与えられただけで、新しいタスクにうまく移行していることが示されている。
本研究はゼロショット関係抽出器としてLLMを探索することに焦点を当てる。
論文 参考訳(メタデータ) (2023-10-08T06:17:39Z) - A Survivor in the Era of Large-Scale Pretraining: An Empirical Study of
One-Stage Referring Expression Comprehension [81.57558029858954]
我々はSimRECと呼ばれる一段階参照表現理解ネットワークを構築した。
我々は,RECの3つのベンチマークデータセットに対して100以上の実験を行った。
トレーニングのオーバーヘッドとパラメータがはるかに少ないため、SimRECは大規模な事前訓練モデルのセットよりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-04-17T03:04:03Z) - Multi-task Collaborative Network for Joint Referring Expression
Comprehension and Segmentation [135.67558811281984]
表現理解(REC)とセグメンテーション(RES)を併用した共同学習を実現するための新しいマルチタスク協調ネットワーク(MCN)を提案する。
MCNでは、RESはRECがよりよい言語ビジョンアライメントを達成するのに役立ち、RECはRESが参照者を見つけるのに役立ちます。
我々は,このマルチタスク・セットアップにおいて,一貫性エネルギー最大化 (Consistency Energy Maximization, CEM) と適応ソフト非局所抑制 (Adaptive Soft Non-Located Suppression, ASNLS) という2つのイノベーティブな設計による予測競合という重要な課題に対処する。
論文 参考訳(メタデータ) (2020-03-19T14:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。