Fugu-MT 論文翻訳(概要): Fine-Grained Visual Prompting

論文の概要: Fine-Grained Visual Prompting

arxiv url: http://arxiv.org/abs/2306.04356v1
Date: Wed, 7 Jun 2023 11:39:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-08 14:51:08.911167
Title: Fine-Grained Visual Prompting
Title（参考訳）: きめ細かい視覚プロンプト
Authors: Lingfeng Yang, Yueze Wang, Xiang Li, Xinlong Wang, Jian Yang
Abstract要約: ピクセルレベルのアノテーションを微粒な視覚的プロンプトに活用するゼロショットフレームワークを新たに導入する。 Fine-Grained Visual Prompting (FGVP) は参照表現のゼロショット理解において優れた性能を示す。
参考スコア（独自算出の注目度）: 31.74996671053966
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vision-Language Models (VLMs), such as CLIP, have demonstrated impressive zero-shot transfer capabilities in image-level visual perception. However, these models have shown limited performance in instance-level tasks that demand precise localization and recognition. Previous works have suggested that incorporating visual prompts, such as colorful boxes or circles, can improve the ability of models to recognize objects of interest. Nonetheless, compared to language prompting, visual prompting designs are rarely explored. Existing approaches, which employ coarse visual cues such as colorful boxes or circles, often result in sub-optimal performance due to the inclusion of irrelevant and noisy pixels. In this paper, we carefully study the visual prompting designs by exploring more fine-grained markings, such as segmentation masks and their variations. In addition, we introduce a new zero-shot framework that leverages pixel-level annotations acquired from a generalist segmentation model for fine-grained visual prompting. Consequently, our investigation reveals that a straightforward application of blur outside the target mask, referred to as the Blur Reverse Mask, exhibits exceptional effectiveness. This proposed prompting strategy leverages the precise mask annotations to reduce focus on weakly related regions while retaining spatial coherence between the target and the surrounding background. Our Fine-Grained Visual Prompting (FGVP) demonstrates superior performance in zero-shot comprehension of referring expressions on the RefCOCO, RefCOCO+, and RefCOCOg benchmarks. It outperforms prior methods by an average margin of 3.0% to 4.6%, with a maximum improvement of 12.5% on the RefCOCO+ testA subset. The part detection experiments conducted on the PACO dataset further validate the preponderance of FGVP over existing visual prompting techniques. Code and models will be made available.
Abstract（参考訳）: CLIPのような視覚言語モデル(VLM)は、画像レベルの視覚知覚において、印象的なゼロショット転送機能を示している。しかしながら、これらのモデルでは、正確なローカライゼーションと認識を必要とするインスタンスレベルのタスクのパフォーマンスが制限されている。以前の研究は、カラフルな箱や円のような視覚的なプロンプトを組み込むことで、モデルが関心のあるオブジェクトを認識する能力を向上させることを示唆している。それでも、言語プロンプトに比べて視覚的なプロンプトデザインは滅多に研究されていない。色とりどりの箱や円のような粗い視覚的なヒントを用いる既存のアプローチは、無関係でノイズの多いピクセルを含むため、しばしば最適以下のパフォーマンスをもたらす。本稿では,よりきめ細かなマーキング,例えばセグメンテーションマスクとそのバリエーションを探索することにより,視覚的プロンプトデザインを慎重に研究する。さらに,汎用セグメンテーションモデルから取得したピクセルレベルのアノテーションを活用し,詳細な視覚的プロンプトを行う,ゼロショットフレームワークも導入する。その結果,Blur Reverse Maskと呼ばれる標的マスクの外側のぼやけの直接的応用が極めて有効であることが判明した。提案手法は, マスクアノテーションの精度を利用して, ターゲットと周辺背景との空間的コヒーレンスを維持しつつ, 弱関連領域へのフォーカスを低減する。我々のFGVPは、RefCOCO、RefCOCO+、RefCOCOgベンチマークにおける参照表現のゼロショット理解において優れた性能を示す。従来のメソッドを3.0%から4.6%のマージンで上回り、最大で12.5%のrefcoco+ testaサブセットで改善する。 PACOデータセット上で行った部分検出実験は、既存の視覚的プロンプト技術よりもFGVPの優位性をさらに検証した。コードとモデルは利用可能になる。

関連論文リスト

TikArt: Aperture-Guided Observation for Fine-Grained Visual Reasoning via Reinforcement Learning [6.656456191281567]
本稿では,関心領域の意思決定プロセスとして視覚言語推論を取り入れた開口誘導エージェントTikArtを紹介する。 TikArtはThink-Aperture-Observeループに従っており、言語生成と2つのアパーチャアクションの交互に行われる。すべてのアクションの後、モデルは明示的な観察を生成し、局所的な視覚的手がかりを永続的な言語記憶に変換する必要がある。
論文参考訳（メタデータ） (2026-02-16T05:46:47Z)
ResAgent: Entropy-based Prior Point Discovery and Visual Reasoning for Referring Expression Segmentation [21.87321809019825]
Referring Expression(RES)は、自由形式の言語表現によるターゲットのピクセルレベルの理解を可能にする、コアビジョン言語セグメンテーションタスクである。 textbfmodelは textbfEntropy-textbfBased Point textbfDiscovery (textbfEBD) と textbfVision-textbfBased textbfReasoning (textbfVBR) を統合する新しいRESフレームワークである。 model は coarse-to を実装します
論文参考訳（メタデータ） (2026-01-23T01:56:04Z)
Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。 LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文参考訳（メタデータ） (2025-05-17T10:22:29Z)
Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection [54.21851618853518]
本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
論文参考訳（メタデータ） (2025-03-21T12:10:38Z)
Reverse Region-to-Entity Annotation for Pixel-Level Visual Entity Linking [9.378011289206428]
我々は新しいタスクであるPixel-Level Visual Entity Linking (PL-VEL)を提案する。 PL-VELはオブジェクトを参照するために視覚入力からピクセルマスクを使用し、VELの参照メソッドを補完する。このデータセットには500万以上のアノテーションが含まれており、ピクセルレベルの領域とエンティティレベルのラベルが一致している。
論文参考訳（メタデータ） (2024-12-18T08:49:01Z)
Spatial Action Unit Cues for Interpretable Deep Facial Expression Recognition [55.97779732051921]
表情認識(FER)のための最先端の分類器は、エンドユーザーにとって重要な特徴である解釈可能性に欠ける。新しい学習戦略が提案され、AU cues を分類器訓練に明示的に組み込むことで、深い解釈可能なモデルを訓練することができる。我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。
論文参考訳（メタデータ） (2024-10-01T10:42:55Z)
Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation [42.020470627552136]
Open-vocabulary Panoptic segmentationは、イメージを意味のあるマスクに正確に分割することを目的とした、新たなタスクである。マスク分類は、オープンボキャブ・パノプティクスのセグメンテーションにおける主要なパフォーマンスボトルネックである。オープンボキャブ・パノプティクスのセグメンテーションを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・タニングを提案する。
論文参考訳（メタデータ） (2024-09-24T17:50:28Z)
FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation [47.0028071183214]
FrozenSegは、局所化基盤モデル(SAMなど)とViLモデル(CLIPなど)から抽出した意味知識から空間知識を統合するように設計されている。 FrozenSegは、さまざまなセグメンテーションベンチマークにまたがって最先端の結果を前進させ、COCOパン光学データのみにトレーニングし、ゼロショットでテストする。
論文参考訳（メタデータ） (2024-09-05T13:36:50Z)
SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation [11.243400478302771]
Referring Expression Consistency (RES) は、テキストによって参照される画像において、対象オブジェクトのセグメンテーションマスクを提供することを目的としている。アルゴリズムの革新を取り入れたRESのための弱教師付きブートストラップアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-07-02T16:02:25Z)
ScanFormer: Referring Expression Comprehension by Iteratively Scanning [11.95137121280909]
Referring Expression (REC) は、画像中の自由形式の自然言語記述によって指定された対象オブジェクトをローカライズすることを目的としている。最先端の手法は印象的な性能を達成する一方で、言語クエリとは無関係な冗長な視覚領域を含む画像の濃密な認識を行う。モデルの効率を改善するために、言語的に無関係な冗長な視覚領域を排除できるだろうか?
論文参考訳（メタデータ） (2024-06-26T03:56:03Z)
RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。本稿では,MLLMの検索とランク付けのための拡張手法を提案する。提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文参考訳（メタデータ） (2024-03-20T17:59:55Z)
Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-03-13T11:23:55Z)
Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。 TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文参考訳（メタデータ） (2023-10-27T10:52:50Z)
A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文参考訳（メタデータ） (2021-12-29T18:56:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。