Fugu-MT 論文翻訳(概要): Visual In-Context Prompting

論文の概要: Visual In-Context Prompting

arxiv url: http://arxiv.org/abs/2311.13601v1
Date: Wed, 22 Nov 2023 18:59:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 14:03:35.431089
Title: Visual In-Context Prompting
Title（参考訳）: visual in-context プロンプト
Authors: Feng Li, Qing Jiang, Hao Zhang, Tianhe Ren, Shilong Liu, Xueyan Zou, Huaizhe Xu, Hongyang Li, Chunyuan Li, Jianwei Yang, Lei Zhang, Jianfeng Gao
Abstract要約: 本稿では,オープンセットのセグメンテーションや検出といった視覚的タスクのためのユニバーサルな視覚的インコンテキストプロンプトフレームワークを提案する。エンコーダ-デコーダアーキテクチャ上に構築し,ストロークやボックス,ポイントなど,さまざまなプロンプトをサポートする汎用的なプロンプトエンコーダを開発する。広範にわたる調査の結果,提案した視覚的インコンテクストは,異常参照と汎用セグメンテーション機能を引き起こすことが示された。
参考スコア（独自算出の注目度）: 100.93587329049848
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In-context prompting in large language models (LLMs) has become a prevalent approach to improve zero-shot capabilities, but this idea is less explored in the vision domain. Existing visual prompting methods focus on referring segmentation to segment the most relevant object, falling short of addressing many generic vision tasks like open-set segmentation and detection. In this paper, we introduce a universal visual in-context prompting framework for both tasks. In particular, we build on top of an encoder-decoder architecture, and develop a versatile prompt encoder to support a variety of prompts like strokes, boxes, and points. We further enhance it to take an arbitrary number of reference image segments as the context. Our extensive explorations show that the proposed visual in-context prompting elicits extraordinary referring and generic segmentation capabilities to refer and detect, yielding competitive performance to close-set in-domain datasets and showing promising results on many open-set segmentation datasets. By joint training on COCO and SA-1B, our model achieves $57.7$ PQ on COCO and $23.2$ PQ on ADE20K. Code will be available at https://github.com/UX-Decoder/DINOv.
Abstract（参考訳）: 大規模言語モデル(LLM)におけるインコンテキストプロンプトは、ゼロショット機能を改善するための一般的なアプローチとなっているが、このアイデアはビジョン領域では研究されていない。既存の視覚的プロンプト手法は、セグメンテーションを参照して最も関係のあるオブジェクトをセグメンテーションすることに焦点を当てており、オープンセットセグメンテーションや検出のような多くの一般的なビジョンタスクに対処するに足らない。本稿では,両タスクのためのユニバーサルビジュアルインコンテキストプロンプトフレームワークを提案する。特に、エンコーダ-デコーダアーキテクチャの上に構築し、ストローク、ボックス、ポイントといったさまざまなプロンプトをサポートする汎用的なプロンプトエンコーダを開発しています。さらに、任意の数の参照画像セグメントをコンテキストとして取り込むように拡張する。広範囲にわたる調査の結果から,提案する視覚的インコンテキストは,参照と検出のための特別な参照と汎用的なセグメンテーション能力を示し,クローズドなドメイン内データセットに対する競合性能をもたらし,多くのオープンセットセグメンテーションデータセットで有望な結果を示す。 COCOとSA-1Bの合同トレーニングにより、当社のモデルはCOCOで57.7ドル、ADE20Kで23.2ドルとなる。コードはhttps://github.com/UX-Decoder/DINOv.comから入手できる。

関連論文リスト

Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation [15.941958367737408]
Seg-TTOはゼロショットでオープンなセマンティックセグメンテーションのためのフレームワークである。このギャップに対処するために、セグメンテーション固有のテスト時間最適化にフォーカスします。 Seg-TTOは明確なパフォーマンス向上(いくつかのデータセットで最大27%のmIoU増加)を示し、新たな最先端の確立を実現している。
論文参考訳（メタデータ） (2025-01-08T18:58:24Z)
More Pictures Say More: Visual Intersection Network for Open Set Object Detection [4.206612461069489]
オープンセットオブジェクト検出(VINO)のための強力なDETRモデルであるVisual Intersection Networkを導入する。 VINOは、すべての時間ステップにまたがるカテゴリのセマンティックな交差を保存するために、マルチイメージのビジュアルバンクを構築する。提案手法は,対象カテゴリ意味論と領域意味論のより正確な一致を保証するとともに,事前学習時間とリソース要求を著しく低減する。
論文参考訳（メタデータ） (2024-08-26T05:52:35Z)
Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文参考訳（メタデータ） (2024-07-14T15:02:54Z)
ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual Prompts [38.59120110371588]
任意の視覚的プロンプトをデコードできる新しいマルチモーダルモデルを提案する。これにより、ユーザは直感的にイメージをマークし、"赤いバウンディングボックス"や"ポイントアロー"のような自然なキューを使ってモデルと対話できる。我々の単純な設計では、ビジュアルマーカーをRGBイメージに直接オーバーレイし、複雑な領域エンコーディングを不要にしています。
論文参考訳（メタデータ） (2023-12-01T18:59:56Z)
Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文参考訳（メタデータ） (2023-11-19T06:00:39Z)
Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文参考訳（メタデータ） (2023-04-13T17:59:40Z)
A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文参考訳（メタデータ） (2023-03-14T17:58:34Z)
Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文参考訳（メタデータ） (2022-07-18T09:20:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。