論文の概要: LoSh: Long-Short Text Joint Prediction Network for Referring Video
Object Segmentation
- arxiv url: http://arxiv.org/abs/2306.08736v1
- Date: Wed, 14 Jun 2023 20:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 17:20:27.556343
- Title: LoSh: Long-Short Text Joint Prediction Network for Referring Video
Object Segmentation
- Title(参考訳): LoSh:ビデオオブジェクトセグメント参照のための長短テキスト共同予測ネットワーク
- Authors: Linfeng Yuan, Miaojing Shi, Zijie Yue
- Abstract要約: ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のテキスト表現によって参照されるターゲットインスタンスをビデオクリップにセグメントすることを目的としている。
テキスト表現は通常、インスタンスの外観、行動、他者との関係に関する洗練された記述を含んでいる。
本稿では,従来の長文表現から主語中心の短文表現を取り出すことにより,この問題に対処する。
- 参考スコア(独自算出の注目度): 8.00482769867592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring video object segmentation (RVOS) aims to segment the target
instance referred by a given text expression in a video clip. The text
expression normally contains sophisticated descriptions of the instance's
appearance, actions, and relations with others. It is therefore rather
difficult for an RVOS model to capture all these attributes correspondingly in
the video; in fact, the model often favours more on the action- and
relation-related visual attribute of the instance. This can end up with
incomplete or even incorrect mask prediction of the target instance. In this
paper, we tackle this problem by taking a subject-centric short text expression
from the original long text expression. The short one retains only the
appearance-related information of the target instance so that we can use it to
focus the model's attention on the instance's appearance. We let the model make
joint predictions using both long and short text expressions and introduce a
long-short predictions intersection loss to align the joint predictions.
Besides the improvement on the linguistic part, we also introduce a
forward-backward visual consistency loss, which utilizes optical flows to warp
visual features between the annotated frames and their temporal neighbors for
consistency. We build our method on top of two state of the art
transformer-based pipelines for end-to-end training. Extensive experiments on
A2D-Sentences and JHMDB-Sentences datasets show impressive improvements of our
method.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)は、所定のテキスト表現によって参照されるターゲットインスタンスをビデオクリップにセグメントすることを目的としている。
テキスト表現は通常、インスタンスの外観、行動、他者との関係に関する洗練された記述を含んでいる。
したがって、RVOSモデルでは、ビデオ内のすべての属性をキャプチャすることはかなり困難である。
これは最終的には、ターゲットインスタンスの不完全あるいは不正なマスク予測に終わる。
本稿では,従来の長文表現から主語中心の短文表現を取り出すことにより,この問題に対処する。
ショートは、ターゲットインスタンスの外観関連情報のみを保持するので、モデルがインスタンスの外観に注意を集中するために使用できます。
我々は,長文と短文の両方の表現を用いて共同予測を行い,連接予測を整合させるために,長短の予測交叉損失を導入する。
また,前向きの視覚的整合性損失も導入し,アノテートフレームと時間的隣接部との間の視覚的特徴の整合性に光学的流れを利用する。
エンド・ツー・エンドのトレーニングのために, art transformerベースのパイプラインの2つの状態上に本手法を構築した。
A2D-SentencesとJHMDB-Sentencesデータセットの大規模な実験により,本手法の大幅な改善が示された。
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Weakly Supervised Instance Segmentation for Videos with Temporal Mask
Consistency [28.352140544936198]
弱い教師付きインスタンスセグメンテーションは、モデルのトレーニングに必要なアノテーションのコストを削減します。
画像ではなく弱いラベル付きビデオでトレーニングすることで,これらの問題に対処できることを示す。
私たちは、弱い教師付きインスタンスセグメンテーションに取り組むために、これらのビデオ信号の使用を初めて調査しました。
論文 参考訳(メタデータ) (2021-03-23T23:20:46Z) - ClawCraneNet: Leveraging Object-level Relation for Text-based Video
Segmentation [47.7867284770227]
テキストベースのビデオセグメンテーションは、ビデオ内の自然言語参照オブジェクトをセグメンテーションする難しいタスクである。
言語指導でオブジェクトを人間に分割する方法を模倣することで、新しいトップダウンアプローチを導入する。
我々の手法は最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-03-19T09:31:08Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。