論文の概要: OS-MSL: One Stage Multimodal Sequential Link Framework for Scene
Segmentation and Classification
- arxiv url: http://arxiv.org/abs/2207.01241v1
- Date: Mon, 4 Jul 2022 07:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:17:16.703229
- Title: OS-MSL: One Stage Multimodal Sequential Link Framework for Scene
Segmentation and Classification
- Title(参考訳): OS-MSL:シーンセグメンテーションと分類のための1段階マルチモーダルシーケンスリンクフレームワーク
- Authors: Ye Liu, Lingfeng Qiao, Di Yin, Zhuoxuan Jiang, Xinghua Jiang, Deqiang
Jiang, Bo Ren
- Abstract要約: 本稿では,2つの意味論を識別し,活用するための汎用1段マルチモーダルシーケンスリンクフレームワーク(OS-MSL)を提案する。
我々はDiffCorrNetと呼ばれる特定のモジュールを調整し、ショット間の差分や相関関係の情報を明示的に抽出する。
- 参考スコア(独自算出の注目度): 11.707994658605546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene segmentation and classification (SSC) serve as a critical step towards
the field of video structuring analysis. Intuitively, jointly learning of these
two tasks can promote each other by sharing common information. However, scene
segmentation concerns more on the local difference between adjacent shots while
classification needs the global representation of scene segments, which
probably leads to the model dominated by one of the two tasks in the training
phase. In this paper, from an alternate perspective to overcome the above
challenges, we unite these two tasks into one task by a new form of predicting
shots link: a link connects two adjacent shots, indicating that they belong to
the same scene or category. To the end, we propose a general One Stage
Multimodal Sequential Link Framework (OS-MSL) to both distinguish and leverage
the two-fold semantics by reforming the two learning tasks into a unified one.
Furthermore, we tailor a specific module called DiffCorrNet to explicitly
extract the information of differences and correlations among shots. Extensive
experiments on a brand-new large scale dataset collected from real-world
applications, and MovieScenes are conducted. Both the results demonstrate the
effectiveness of our proposed method against strong baselines.
- Abstract(参考訳): シーンセグメンテーションと分類(SSC)は、ビデオ構造化解析の分野への重要なステップとなる。
直感的には、これらの2つのタスクを共同で学習することは共通の情報を共有することによって互いに促進することができる。
しかし、シーンセグメンテーションは、隣接するショット間の局所的な差異をより懸念し、分類にはシーンセグメンテーションのグローバルな表現が必要であり、おそらくトレーニングフェーズにおける2つのタスクの1つに支配されるモデルに繋がる。
本稿では、上記の課題を克服するために、これらの2つのタスクを1つのタスクに1つのタスクにまとめる: リンクが隣接する2つのショットを接続し、それらが同じシーンやカテゴリに属することを示す。
最後に,2つの学習タスクを一元化して2つの意味論を区別し,活用するための一般の1段階マルチモーダルシーケンスリンクフレームワーク(OS-MSL)を提案する。
さらに、diffcorrnetと呼ばれる特定のモジュールを調整し、ショット間の差異や相関に関する情報を明示的に抽出する。
実世界のアプリケーションから収集した新しい大規模データセットに関する大規模な実験を行い、MovieScenesを行った。
両結果は,提案手法が強いベースラインに対して有効であることを示す。
関連論文リスト
- Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Integrative Few-Shot Learning for Classification and Segmentation [37.50821005917126]
少数ショット分類とセグメンテーション(FS-CS)の統合タスクについて紹介する。
FS-CSは、ターゲットクラスがいくつかの例で与えられるとき、クエリイメージでターゲットオブジェクトを分類し、セグメントすることを目的としている。
本稿では,FS-CSのための統合的数ショット学習フレームワークを提案し,学習者がクラスワイドな前景マップを構築するように訓練する。
論文 参考訳(メタデータ) (2022-03-29T16:14:40Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - BriNet: Towards Bridging the Intra-class and Inter-class Gaps in
One-Shot Segmentation [84.2925550033094]
ほとんどショットのセグメンテーションは、限られたトレーニングサンプルで見えないオブジェクトインスタンスをセグメンテーションするためのモデルの一般化に焦点を当てている。
本稿では,クエリの抽出した特徴とサポートイメージのギャップを埋めるフレームワーク BriNet を提案する。
本フレームワークの有効性は,他の競合手法よりも優れる実験結果によって実証された。
論文 参考訳(メタデータ) (2020-08-14T07:45:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。