論文の概要: Segment and Caption Anything
- arxiv url: http://arxiv.org/abs/2312.00869v2
- Date: Tue, 26 Mar 2024 12:56:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 00:21:53.184046
- Title: Segment and Caption Anything
- Title(参考訳): セグメンテーションとキャプション
- Authors: Xiaoke Huang, Jianfeng Wang, Yansong Tang, Zheng Zhang, Han Hu, Jiwen Lu, Lijuan Wang, Zicheng Liu,
- Abstract要約: 本稿では,地域キャプションを生成する機能を備えたセグメンション・アプライシング・モデルを提案する。
軽量なクエリベースの機能ミキサーを導入することで、地域固有の特徴と、後続キャプション生成のための言語モデルの埋め込み空間を整合させる。
提案手法の優位性を実証し,それぞれの設計選択を検証するために,広範な実験を行う。
- 参考スコア(独自算出の注目度): 126.20201216616137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method to efficiently equip the Segment Anything Model (SAM) with the ability to generate regional captions. SAM presents strong generalizability to segment anything while is short for semantic understanding. By introducing a lightweight query-based feature mixer, we align the region-specific features with the embedding space of language models for later caption generation. As the number of trainable parameters is small (typically in the order of tens of millions), it costs less computation, less memory usage, and less communication bandwidth, resulting in both fast and scalable training. To address the scarcity problem of regional caption data, we propose to first pre-train our model on objection detection and segmentation tasks. We call this step weak supervision pretraining since the pre-training data only contains category names instead of full-sentence descriptions. The weak supervision pretraining allows us to leverage many publicly available object detection and segmentation datasets. We conduct extensive experiments to demonstrate the superiority of our method and validate each design choice. This work serves as a stepping stone towards scaling up regional captioning data and sheds light on exploring efficient ways to augment SAM with regional semantics. The project page, along with the associated code, can be accessed via https://xk-huang.github.io/segment-caption-anything/.
- Abstract(参考訳): 本稿では,Segment Anything Model (SAM) を地域キャプションを生成する能力に効率よく装備する手法を提案する。
SAMは、セマンティック理解に短い間は、何でもセグメンテーションできる強力な一般化性を示す。
軽量なクエリベースの機能ミキサーを導入することで、地域固有の特徴と、後続キャプション生成のための言語モデルの埋め込み空間を整合させる。
トレーニング可能なパラメータの数は少なく(通常は数千万という順序で)、計算量が少なく、メモリ使用量も少なく、通信帯域も少なく、高速かつスケーラブルなトレーニングを実現している。
地域キャプションデータの不足問題に対処するため,我々はまず,対象検出とセグメンテーションタスクに関するモデルを事前学習することを提案する。
事前学習データは、全文記述ではなくカテゴリ名のみを含むため、このステップを弱い監視事前訓練と呼ぶ。
弱い監視事前トレーニングにより、多くの公開可能なオブジェクト検出とセグメンテーションデータセットを活用することができます。
提案手法の優位性を実証し,それぞれの設計選択を検証するために,広範な実験を行う。
この研究は、地域のキャプションデータのスケールアップに向けた一歩として役立ち、SAMを地域意味論で強化する効率的な方法を探ることに光を当てる。
プロジェクトページは関連するコードとともにhttps://xk-huang.github.io/segment-caption-anything/を通じてアクセスすることができる。
関連論文リスト
- Tokenize Anything via Prompting [72.02446432548518]
我々は,任意のものを同時にセグメンテーションし,認識し,キャプションすることができる統一的,迅速なモデルを提案する。
私たちは、SA-1Bマスクのような巨大なセグメンテーションマスクと、事前訓練されたCLIPモデルからのセマンティックプリミティブを持つ一般化可能なモデルを訓練する。
我々は,このモデルが汎用領域コンテキストを符号化できる汎用領域レベルの画像トークン化器であると考えている。
論文 参考訳(メタデータ) (2023-12-14T17:01:02Z) - SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language
Guidance [97.00445262074595]
半教師付きセマンティックセマンティックセグメンテーションに視覚言語モデルからの豊富な事前情報を統合することを提案する。
我々は、視覚と言語を共同で推論する言語誘導デコーダを設計する。
4つのセマンティックセグメンテーションデータセット上でSemiVLを評価する。
論文 参考訳(メタデータ) (2023-11-27T19:00:06Z) - Segment Anything Model is a Good Teacher for Local Feature Learning [13.537256386350629]
局所的な特徴の検出と記述は多くのコンピュータビジョンタスクにおいて重要な役割を果たす。
データ駆動型局所特徴学習法は、訓練にピクセルレベルの対応に頼る必要がある。
1100万の画像に基づいて訓練されたモデルSAMeatを,局所的な特徴学習を指導する教師として提案する。
論文 参考訳(メタデータ) (2023-09-29T05:29:20Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Boosting Weakly-Supervised Temporal Action Localization with Text
Information [94.48602948837664]
本稿では,アクションクラスラベルに基づくテキスト記述を構築するためのテキストセグメンテーション・マイニング(TSM)機構を提案する。
また,VLC (Video-text Language Completion) という生成目的も導入した。
また,提案手法を既存手法にシームレスに適用し,その性能を明確なマージンで向上させることができる。
論文 参考訳(メタデータ) (2023-05-01T00:07:09Z) - SASFormer: Transformers for Sparsely Annotated Semantic Segmentation [44.758672633271956]
本稿では,SASFormer と呼ばれるセグフォーマをベースとした,シンプルで効果的なスパースアノテートセマンティックセマンティックセマンティックセマンティクスフレームワークを提案する。
具体的には、まず階層的なパッチアテンションマップを生成し、それをネットワーク予測に乗じて、有効なラベルで分離された相関領域を生成する。
論文 参考訳(メタデータ) (2022-12-05T04:33:12Z) - On the Difficulty of Segmenting Words with Attention [32.97060026226872]
しかし、モノリンガルデータでさえこのアプローチは脆弱であることを示す。
異なる入力タイプ、データサイズ、セグメンテーションアルゴリズムの実験では、単語から電話を予測するために訓練されたモデルのみがタスクを成功させる。
論文 参考訳(メタデータ) (2021-09-21T11:37:08Z) - LRGNet: Learnable Region Growing for Class-Agnostic Point Cloud
Segmentation [19.915593390338337]
本研究は,クラス非依存のクラウドセグメンテーションのための学習可能な領域成長手法を提案する。
提案手法は, 物体の形状や大きさを仮定することなく, 単一の深層ニューラルネットワークを用いて任意のクラスを分割することができる。
論文 参考訳(メタデータ) (2021-03-16T15:58:01Z) - Catplayinginthesnow: Impact of Prior Segmentation on a Model of Visually
Grounded Speech [24.187382590960254]
子どもたちは、音声入力を音素に分割し、そこから単語を組み立てることで、語彙を作らない。
これは、言語を学ぶ理想的な方法は、完全なセマンティックユニットから始めることである。
本稿では、RNNモデルにそのような情報を導入し、どのタイプの境界が最も効率的かを調べるための簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-06-15T13:20:13Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。