論文の概要: Segment and Caption Anything
- arxiv url: http://arxiv.org/abs/2312.00869v1
- Date: Fri, 1 Dec 2023 19:00:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:31:33.589216
- Title: Segment and Caption Anything
- Title(参考訳): セグメントとキャプション
- Authors: Xiaoke Huang, Jianfeng Wang, Yansong Tang, Zheng Zhang, Han Hu, Jiwen
Lu, Lijuan Wang, Zicheng Liu
- Abstract要約: 本稿では,地域キャプションを生成する機能を備えたセグメンション・アプライシング・モデルを提案する。
軽量なクエリベースの機能ミキサーを導入することで、地域固有の特徴と、後続キャプション生成のための言語モデルの埋め込み空間を整合させる。
提案手法の優位性を実証し,それぞれの設計選択を検証するために,広範な実験を行う。
- 参考スコア(独自算出の注目度): 131.63755884724696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method to efficiently equip the Segment Anything Model (SAM)
with the ability to generate regional captions. SAM presents strong
generalizability to segment anything while is short for semantic understanding.
By introducing a lightweight query-based feature mixer, we align the
region-specific features with the embedding space of language models for later
caption generation. As the number of trainable parameters is small (typically
in the order of tens of millions), it costs less computation, less memory
usage, and less communication bandwidth, resulting in both fast and scalable
training. To address the scarcity problem of regional caption data, we propose
to first pre-train our model on objection detection and segmentation tasks. We
call this step weak supervision pretraining since the pre-training data only
contains category names instead of full-sentence descriptions. The weak
supervision pretraining allows us to leverage many publicly available object
detection and segmentation datasets. We conduct extensive experiments to
demonstrate the superiority of our method and validate each design choice. This
work serves as a stepping stone towards scaling up regional captioning data and
sheds light on exploring efficient ways to augment SAM with regional semantics.
The project page, along with the associated code, can be accessed via the
following https://xk-huang.github.io/segment-caption-anything/.
- Abstract(参考訳): 本稿では,Segment Anything Model (SAM) を地域キャプションを生成する能力に効率よく装備する手法を提案する。
SAMは、セマンティック理解に短い間は、何でもセグメンテーションできる強力な一般化性を示す。
軽量なクエリベースの機能ミキサーを導入することで、地域固有の特徴と、後続キャプション生成のための言語モデルの埋め込み空間を整合させる。
トレーニング可能なパラメータの数は少なく(通常は数千万という順序で)、計算量が少なく、メモリ使用量も少なく、通信帯域も少なく、高速かつスケーラブルなトレーニングを実現している。
地域キャプションデータの不足問題に対処するため,まず,対象検出とセグメンテーションタスクに関するモデルを事前学習することを提案する。
事前学習データは全文記述ではなくカテゴリ名のみを含むので,このステップを弱い指導プリトレーニングと呼ぶ。
弱い監視事前トレーニングにより、多くの公開オブジェクト検出とセグメンテーションデータセットを活用することができます。
提案手法の優位性を実証し,それぞれの設計選択を検証するために,広範な実験を行う。
この研究は、地域キャプションデータのスケールアップに向けた一歩として役立ち、SAMを地域意味論で強化する方法の探索に光を当てている。
プロジェクトページと関連するコードは、以下のhttps://xk-huang.github.io/segment-caption-anything/からアクセスできる。
関連論文リスト
- Scalable and Domain-General Abstractive Proposition Segmentation [20.532804009152255]
我々は、抽象命題セグメンテーション(APS)の課題に焦点を合わせ、テキストを単純で自己完結した、よく表現された文に変換する。
まず、タスクの評価基準を導入し、いくつかの品質の次元を計測する。
次に、スケーラブルで正確な命題セグメンテーションモデルを提案する。
論文 参考訳(メタデータ) (2024-06-28T10:24:31Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language
Guidance [97.00445262074595]
半教師付きセマンティックセマンティックセグメンテーションに視覚言語モデルからの豊富な事前情報を統合することを提案する。
我々は、視覚と言語を共同で推論する言語誘導デコーダを設計する。
4つのセマンティックセグメンテーションデータセット上でSemiVLを評価する。
論文 参考訳(メタデータ) (2023-11-27T19:00:06Z) - Segment Anything Model is a Good Teacher for Local Feature Learning [19.66262816561457]
局所的な特徴の検出と記述は多くのコンピュータビジョンタスクにおいて重要な役割を果たす。
データ駆動型局所特徴学習手法は、訓練にピクセルレベルの対応に頼る必要がある。
本研究では,SAMFeatを教師として導入し,局所的な特徴学習の指導を行う。
論文 参考訳(メタデータ) (2023-09-29T05:29:20Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Boosting Weakly-Supervised Temporal Action Localization with Text
Information [94.48602948837664]
本稿では,アクションクラスラベルに基づくテキスト記述を構築するためのテキストセグメンテーション・マイニング(TSM)機構を提案する。
また,VLC (Video-text Language Completion) という生成目的も導入した。
また,提案手法を既存手法にシームレスに適用し,その性能を明確なマージンで向上させることができる。
論文 参考訳(メタデータ) (2023-05-01T00:07:09Z) - SASFormer: Transformers for Sparsely Annotated Semantic Segmentation [44.758672633271956]
本稿では,SASFormer と呼ばれるセグフォーマをベースとした,シンプルで効果的なスパースアノテートセマンティックセマンティックセマンティックセマンティクスフレームワークを提案する。
具体的には、まず階層的なパッチアテンションマップを生成し、それをネットワーク予測に乗じて、有効なラベルで分離された相関領域を生成する。
論文 参考訳(メタデータ) (2022-12-05T04:33:12Z) - On the Difficulty of Segmenting Words with Attention [32.97060026226872]
しかし、モノリンガルデータでさえこのアプローチは脆弱であることを示す。
異なる入力タイプ、データサイズ、セグメンテーションアルゴリズムの実験では、単語から電話を予測するために訓練されたモデルのみがタスクを成功させる。
論文 参考訳(メタデータ) (2021-09-21T11:37:08Z) - Catplayinginthesnow: Impact of Prior Segmentation on a Model of Visually
Grounded Speech [24.187382590960254]
子どもたちは、音声入力を音素に分割し、そこから単語を組み立てることで、語彙を作らない。
これは、言語を学ぶ理想的な方法は、完全なセマンティックユニットから始めることである。
本稿では、RNNモデルにそのような情報を導入し、どのタイプの境界が最も効率的かを調べるための簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-06-15T13:20:13Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。