論文の概要: SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2305.17011v1
- Date: Fri, 26 May 2023 15:13:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 13:56:50.388164
- Title: SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation
- Title(参考訳): soc:ビデオオブジェクトのセグメンテーション参照のためのセマンティック支援オブジェクトクラスタ
- Authors: Zhuoyan Luo, Yicheng Xiao, Yong Liu, Shuyan Li, Yitong Wang, Yansong
Tang, Xiu Li, Yujiu Yang
- Abstract要約: 本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
- 参考スコア(独自算出の注目度): 35.063881868130075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies referring video object segmentation (RVOS) by boosting
video-level visual-linguistic alignment. Recent approaches model the RVOS task
as a sequence prediction problem and perform multi-modal interaction as well as
segmentation for each frame separately. However, the lack of a global view of
video content leads to difficulties in effectively utilizing inter-frame
relationships and understanding textual descriptions of object temporal
variations. To address this issue, we propose Semantic-assisted Object Cluster
(SOC), which aggregates video content and textual guidance for unified temporal
modeling and cross-modal alignment. By associating a group of frame-level
object embeddings with language tokens, SOC facilitates joint space learning
across modalities and time steps. Moreover, we present multi-modal contrastive
supervision to help construct well-aligned joint space at the video level. We
conduct extensive experiments on popular RVOS benchmarks, and our method
outperforms state-of-the-art competitors on all benchmarks by a remarkable
margin. Besides, the emphasis on temporal coherence enhances the segmentation
stability and adaptability of our method in processing text expressions with
temporal variations. Code will be available.
- Abstract(参考訳): 本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
最近のアプローチでは、RVOSタスクをシーケンス予測問題としてモデル化し、各フレームのセグメンテーションとマルチモーダルインタラクションを行う。
しかし,映像コンテンツの世界観の欠如は,フレーム間の関係を効果的に活用し,時間変動のテキスト記述を理解するのに困難をもたらす。
この問題に対処するために,ビデオコンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
フレームレベルのオブジェクトの埋め込みを言語トークンに関連付けることで、SOCはモダリティと時間ステップをまたいだ共同空間学習を促進する。
さらに,ビデオレベルでの協調空間構築を支援するために,マルチモーダルコントラスト監視を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著に優れている。
また,時間的コヒーレンスに重きを置くことで,文表現処理におけるセグメンテーションの安定性と適応性が向上する。
コードは利用可能だ。
関連論文リスト
- Structured Video-Language Modeling with Temporal Grouping and Spatial
Grounding [117.23208392452693]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Hierarchical Attention Network for Action Segmentation [45.19890687786009]
イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。
我々は、時間とともに行動間の関係をよりよく学習できる、エンドツーエンドの教師あり学習手法を提案する。
我々は,MERLショッピング,50サラダ,ジョージア技術エゴセントリックデータセットなど,公開ベンチマークデータセットの課題を評価する。
論文 参考訳(メタデータ) (2020-05-07T02:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。