論文の概要: The Instance-centric Transformer for the RVOS Track of LSVOS Challenge: 3rd Place Solution
- arxiv url: http://arxiv.org/abs/2408.10541v1
- Date: Tue, 20 Aug 2024 04:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:03:52.682389
- Title: The Instance-centric Transformer for the RVOS Track of LSVOS Challenge: 3rd Place Solution
- Title(参考訳): LSVOSチャレンジのRVOSトラック用インスタンス中心変換器:第3位
- Authors: Bin Cao, Yisi Zhang, Hanyi Wang, Xingjian He, Jing Liu,
- Abstract要約: 2つのインスタンス中心モデルを構築し、フレームレベルとインスタンスレベルの予測結果を融合する。
検証段階では52.67 J&F, 試験段階では60.36 J&F, 第6回 LSVOS Challenge RVOS Track では3位となった。
- 参考スコア(独自算出の注目度): 9.282159019651433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Video Object Segmentation is an emerging multi-modal task that aims to segment objects in the video given a natural language expression. In this work, we build two instance-centric models and fuse predicted results from frame-level and instance-level. First, we introduce instance mask into the DETR-based model for query initialization to achieve temporal enhancement and employ SAM for spatial refinement. Secondly, we build an instance retrieval model conducting binary instance mask classification whether the instance is referred. Finally, we fuse predicted results and our method achieved a score of 52.67 J&F in the validation phase and 60.36 J&F in the test phase, securing the final ranking of 3rd place in the 6-th LSVOS Challenge RVOS Track.
- Abstract(参考訳): Referring Video Object Segmentationは、自然言語で表現されたビデオ内のオブジェクトをセグメント化することを目的とした、新たなマルチモーダルタスクである。
本研究では,2つのインスタンス中心モデルを構築し,フレームレベルとインスタンスレベルの予測結果を融合する。
まず、時間的拡張を実現するためにクエリ初期化のためのDETRモデルにインスタンスマスクを導入し、空間的洗練のためにSAMを使用する。
第二に、インスタンスが参照されているかどうかに関わらず、バイナリインスタンスマスクの分類を行うインスタンス検索モデルを構築します。
最後に, 予測結果を融合し, 検証フェーズで52.67 J&F, テストフェーズで60.36 J&Fを達成し, 第6回LSVOSチャレンジRVOSトラックで3位となった。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - Adapting Pre-Trained Vision Models for Novel Instance Detection and Segmentation [15.414518995812754]
本稿では、オブジェクトの提案生成、インスタンステンプレートと提案領域の埋め込み生成、インスタンスラベル割り当ての埋め込みマッチングを含む統合フレームワーク(NIDS-Net)を提案する。
我々のフレームワークは現在の最先端の手法を超え、4つの検出データセットの平均精度(AP)において22.3、46.2、10.3、24.0の顕著な改善を示している。
論文 参考訳(メタデータ) (2024-05-28T06:16:57Z) - 1st Place Solution for 5th LSVOS Challenge: Referring Video Object
Segmentation [65.45702890457046]
主要なRVOSモデルの強みを統合して、効果的なパラダイムを構築します。
マスクの整合性と品質を改善するために,2段階のマルチモデル融合戦略を提案する。
第5回大規模ビデオオブジェクトチャレンジ(ICCV 2023)トラック3位にランクインしたRef-Youtube-VOS検証セットで75.7%,テストセットで70%のJ&Fを達成した。
論文 参考訳(メタデータ) (2024-01-01T04:24:48Z) - EipFormer: Emphasizing Instance Positions in 3D Instance Segmentation [51.996943482875366]
本稿では, プログレッシブアグリゲーションとデュアル位置埋め込みを組み合わせた新しいトランスフォーマーアーキテクチャ, EipFormerを提案する。
EipFormerは最先端のアプローチよりも優れた、あるいは同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-12-09T16:08:47Z) - Mask4Former: Mask Transformer for 4D Panoptic Segmentation [13.99703660936949]
Mask4Formerは、セマンティックインスタンスのセグメンテーションとトラッキングを統合する最初のトランスフォーマーベースのアプローチである。
本モデルは,手作りの非学習型アソシエーション戦略に頼ることなく,その時間的アソシエーションのセマンティックインスタンスを直接予測する。
Mask4Formerは68.4 LSTQのスコアでSemanticTITIテストセットの最先端を達成している。
論文 参考訳(メタデータ) (2023-09-28T03:30:50Z) - Mask3D: Mask Transformer for 3D Semantic Instance Segmentation [89.41640045953378]
一般的なTransformerビルディングブロックを利用して、3Dポイントクラウドからインスタンスマスクを直接予測できることが示されています。
Transformerデコーダを使用して、インスタンスクエリは、複数のスケールでクラウド機能をポイントする反復的な参加者によって学習される。
Mask3Dは、新しい最先端ScanNetテスト(+6.2 mAP)、S3DIS 6-fold(+10.1 mAP)、LS3D(+11.2 mAP)、ScanNet200テスト(+12.4 mAP)を設定する。
論文 参考訳(メタデータ) (2022-10-06T17:55:09Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - INSTA-YOLO: Real-Time Instance Segmentation [2.726684740197893]
Insta-YOLOは,リアルタイムインスタンス分割のための一段階のエンドツーエンドディープラーニングモデルである。
提案モデルはYOLOワンショットオブジェクト検出器にインスパイアされ,ボックス回帰損失はローカライゼーションヘッドの回帰に置き換わる。
当社のモデルは,Carnva,Cityscapes,Airbusの3つのデータセットで評価する。
論文 参考訳(メタデータ) (2021-02-12T21:17:29Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。