Fugu-MT 論文翻訳(概要): Segment and Caption Anything

論文の概要: Segment and Caption Anything

arxiv url: http://arxiv.org/abs/2312.00869v1
Date: Fri, 1 Dec 2023 19:00:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 20:31:33.589216
Title: Segment and Caption Anything
Title（参考訳）: セグメントとキャプション
Authors: Xiaoke Huang, Jianfeng Wang, Yansong Tang, Zheng Zhang, Han Hu, Jiwen Lu, Lijuan Wang, Zicheng Liu
Abstract要約: 本稿では,地域キャプションを生成する機能を備えたセグメンション・アプライシング・モデルを提案する。軽量なクエリベースの機能ミキサーを導入することで、地域固有の特徴と、後続キャプション生成のための言語モデルの埋め込み空間を整合させる。提案手法の優位性を実証し,それぞれの設計選択を検証するために,広範な実験を行う。
参考スコア（独自算出の注目度）: 131.63755884724696
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a method to efficiently equip the Segment Anything Model (SAM) with the ability to generate regional captions. SAM presents strong generalizability to segment anything while is short for semantic understanding. By introducing a lightweight query-based feature mixer, we align the region-specific features with the embedding space of language models for later caption generation. As the number of trainable parameters is small (typically in the order of tens of millions), it costs less computation, less memory usage, and less communication bandwidth, resulting in both fast and scalable training. To address the scarcity problem of regional caption data, we propose to first pre-train our model on objection detection and segmentation tasks. We call this step weak supervision pretraining since the pre-training data only contains category names instead of full-sentence descriptions. The weak supervision pretraining allows us to leverage many publicly available object detection and segmentation datasets. We conduct extensive experiments to demonstrate the superiority of our method and validate each design choice. This work serves as a stepping stone towards scaling up regional captioning data and sheds light on exploring efficient ways to augment SAM with regional semantics. The project page, along with the associated code, can be accessed via the following https://xk-huang.github.io/segment-caption-anything/.
Abstract（参考訳）: 本稿では,Segment Anything Model (SAM) を地域キャプションを生成する能力に効率よく装備する手法を提案する。 SAMは、セマンティック理解に短い間は、何でもセグメンテーションできる強力な一般化性を示す。軽量なクエリベースの機能ミキサーを導入することで、地域固有の特徴と、後続キャプション生成のための言語モデルの埋め込み空間を整合させる。トレーニング可能なパラメータの数は少なく(通常は数千万という順序で)、計算量が少なく、メモリ使用量も少なく、通信帯域も少なく、高速かつスケーラブルなトレーニングを実現している。地域キャプションデータの不足問題に対処するため,まず,対象検出とセグメンテーションタスクに関するモデルを事前学習することを提案する。事前学習データは全文記述ではなくカテゴリ名のみを含むので,このステップを弱い指導プリトレーニングと呼ぶ。弱い監視事前トレーニングにより、多くの公開オブジェクト検出とセグメンテーションデータセットを活用することができます。提案手法の優位性を実証し,それぞれの設計選択を検証するために,広範な実験を行う。この研究は、地域キャプションデータのスケールアップに向けた一歩として役立ち、SAMを地域意味論で強化する方法の探索に光を当てている。プロジェクトページと関連するコードは、以下のhttps://xk-huang.github.io/segment-caption-anything/からアクセスできる。

関連論文リスト

Scalable and Domain-General Abstractive Proposition Segmentation [20.532804009152255]
我々は、抽象命題セグメンテーション(APS)の課題に焦点を合わせ、テキストを単純で自己完結した、よく表現された文に変換する。まず、タスクの評価基準を導入し、いくつかの品質の次元を計測する。次に、スケーラブルで正確な命題セグメンテーションモデルを提案する。
論文参考訳（メタデータ） (2024-06-28T10:24:31Z)
Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。 OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文参考訳（メタデータ） (2024-05-17T14:52:47Z)
SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized Zero-Shot Learning [0.6792605600335813]
Zero-Shot Learning (ZSL)は、トレーニング中に見えないカテゴリを特定するという課題を示す。ゼロショット学習のためのセマンティック強化表現(SEER-ZSL)を提案する。まず,確率的エンコーダを用いて意味のある意味情報を抽出し,意味的一貫性とロバスト性を高めることを目的とする。第2に、学習したデータ分布を逆向きに訓練した発電機で利用することにより、視覚空間を蒸留し、第3に、未確認なカテゴリを真のデータ多様体にマッピングできるようにする。
論文参考訳（メタデータ） (2023-12-20T15:18:51Z)
SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language Guidance [97.00445262074595]
半教師付きセマンティックセマンティックセグメンテーションに視覚言語モデルからの豊富な事前情報を統合することを提案する。我々は、視覚と言語を共同で推論する言語誘導デコーダを設計する。 4つのセマンティックセグメンテーションデータセット上でSemiVLを評価する。
論文参考訳（メタデータ） (2023-11-27T19:00:06Z)
Segment Anything Model is a Good Teacher for Local Feature Learning [19.66262816561457]
局所的な特徴の検出と記述は多くのコンピュータビジョンタスクにおいて重要な役割を果たす。データ駆動型局所特徴学習手法は、訓練にピクセルレベルの対応に頼る必要がある。本研究では,SAMFeatを教師として導入し,局所的な特徴学習の指導を行う。
論文参考訳（メタデータ） (2023-09-29T05:29:20Z)
Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。このタスクは、ビデオにおける空間的および時間的局所化を統一する。我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文参考訳（メタデータ） (2023-06-20T17:57:23Z)
Boosting Weakly-Supervised Temporal Action Localization with Text Information [94.48602948837664]
本稿では,アクションクラスラベルに基づくテキスト記述を構築するためのテキストセグメンテーション・マイニング(TSM)機構を提案する。また,VLC (Video-text Language Completion) という生成目的も導入した。また,提案手法を既存手法にシームレスに適用し,その性能を明確なマージンで向上させることができる。
論文参考訳（メタデータ） (2023-05-01T00:07:09Z)
SASFormer: Transformers for Sparsely Annotated Semantic Segmentation [44.758672633271956]
本稿では,SASFormer と呼ばれるセグフォーマをベースとした,シンプルで効果的なスパースアノテートセマンティックセマンティックセマンティックセマンティクスフレームワークを提案する。具体的には、まず階層的なパッチアテンションマップを生成し、それをネットワーク予測に乗じて、有効なラベルで分離された相関領域を生成する。
論文参考訳（メタデータ） (2022-12-05T04:33:12Z)
On the Difficulty of Segmenting Words with Attention [32.97060026226872]
しかし、モノリンガルデータでさえこのアプローチは脆弱であることを示す。異なる入力タイプ、データサイズ、セグメンテーションアルゴリズムの実験では、単語から電話を予測するために訓練されたモデルのみがタスクを成功させる。
論文参考訳（メタデータ） (2021-09-21T11:37:08Z)
Catplayinginthesnow: Impact of Prior Segmentation on a Model of Visually Grounded Speech [24.187382590960254]
子どもたちは、音声入力を音素に分割し、そこから単語を組み立てることで、語彙を作らない。これは、言語を学ぶ理想的な方法は、完全なセマンティックユニットから始めることである。本稿では、RNNモデルにそのような情報を導入し、どのタイプの境界が最も効率的かを調べるための簡単な方法を提案する。
論文参考訳（メタデータ） (2020-06-15T13:20:13Z)
UniT: Unified Knowledge Transfer for Any-shot Object Detection and Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文参考訳（メタデータ） (2020-06-12T22:45:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。