論文の概要: Contrastive Video-Language Segmentation
- arxiv url: http://arxiv.org/abs/2109.14131v1
- Date: Wed, 29 Sep 2021 01:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 15:02:45.703463
- Title: Contrastive Video-Language Segmentation
- Title(参考訳): コントラスト映像言語セグメンテーション
- Authors: Chen Liang, Yawei Luo, Yu Wu and Yi Yang
- Abstract要約: 本稿では,ビデオコンテンツ中の自然言語文によって参照される特定のオブジェクトをセグメント化する問題に焦点をあてる。
本研究では, 視覚的・言語的モダリティを, 対照的な学習目的を通した明示的な方法で解釈することを提案する。
- 参考スコア(独自算出の注目度): 41.1635597261304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on the problem of segmenting a certain object referred by a natural
language sentence in video content, at the core of formulating a pinpoint
vision-language relation. While existing attempts mainly construct such
relation in an implicit way, i.e., grid-level multi-modal feature fusion, it
has been proven problematic to distinguish semantically similar objects under
this paradigm. In this work, we propose to interwind the visual and linguistic
modalities in an explicit way via the contrastive learning objective, which
directly aligns the referred object and the language description and separates
the unreferred content apart across frames. Moreover, to remedy for the
degradation problem, we present two complementary hard instance mining
strategies, i.e., Language-relevant Channel Filter and Relative Hard Instance
Construction. They encourage the network to exclude visual-distinguishable
feature and to focus on easy-confused objects during the contrastive training.
Extensive experiments on two benchmarks, i.e., A2D Sentences and J-HMDB
Sentences, quantitatively demonstrate the state-of-the-arts performance of our
method and qualitatively show the more accurate distinguishment between
semantically similar objects over baselines.
- Abstract(参考訳): 本稿では,映像コンテンツにおいて自然言語文で参照される特定の対象を分割する問題に着目し,ピンポイント視覚言語関係を定式化する。
既存の試みは主に、グリッドレベルのマルチモーダル特徴融合のような暗黙的な方法でそのような関係を構築するが、このパラダイムの下で意味的に類似したオブジェクトを区別することは問題視されている。
本研究では,参照対象と言語記述を直接調整し,フレーム間を分離するコントラスト学習目標を用いて,視覚的・言語的モダリティを明示的に絡み合わせることを提案する。
さらに,劣化問題を解決するために,言語関連チャネルフィルタと相対的ハードインスタンス構築という2つの補完的ハードインスタンスマイニング戦略を提案する。
彼らは、ネットワークが視覚的に識別可能な機能を除外し、コントラストトレーニング中に難解なオブジェクトに焦点を合わせることを奨励する。
A2D Sentences と J-HMDB Sentences の2つのベンチマークにおいて,本手法の最先端性能を定量的に検証し,ベースライン上の意味論的類似オブジェクトのより正確な区別を定性的に示す。
関連論文リスト
- Context Propagation from Proposals for Semantic Video Object Segmentation [1.223779595809275]
本稿では,意味オブジェクトセグメンテーションのためのビデオにおける意味的文脈関係を学習するための新しいアプローチを提案する。
提案手法は,オブジェクトのキー進化と意味時間領域上のオブジェクト間の関係をエンコードするビデオオブジェクトから,セマンティックコンテキストを導出する。
論文 参考訳(メタデータ) (2024-07-08T14:44:18Z) - Verbs in Action: Improving verb understanding in video-language models [128.87443209118726]
CLIPに基づく最先端のビデオ言語モデルは、動詞の理解が限られていることが示されている。
我々は,CLIPに基づくビデオ言語モデルの動詞理解を改善するために,新しいVerb-Focused Contrastiveフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:57:01Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Phrase-Based Affordance Detection via Cyclic Bilateral Interaction [17.022853987801877]
我々は、視覚言語の観点から、手当を知覚し、困難なフレーズベースの手当検出問題を考察する。
言語と視覚の特徴を段階的に整合させるために,循環的二元整合性向上ネットワーク(CBCE-Net)を提案する。
具体的には、CBCE-Netは、視覚と言語の共通した特徴を進歩的に更新する相互指導型視覚言語モジュールと、循環的に物体との相互作用の認識を容易にする循環的相互作用モジュール(CIM)から構成される。
論文 参考訳(メタデータ) (2022-02-24T13:02:27Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - ClawCraneNet: Leveraging Object-level Relation for Text-based Video
Segmentation [47.7867284770227]
テキストベースのビデオセグメンテーションは、ビデオ内の自然言語参照オブジェクトをセグメンテーションする難しいタスクである。
言語指導でオブジェクトを人間に分割する方法を模倣することで、新しいトップダウンアプローチを導入する。
我々の手法は最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-03-19T09:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。