論文の概要: Rethinking Video Salient Object Ranking
- arxiv url: http://arxiv.org/abs/2203.17257v1
- Date: Thu, 31 Mar 2022 17:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 15:45:07.466443
- Title: Rethinking Video Salient Object Ranking
- Title(参考訳): ビデオの有能なオブジェクトランキングの再考
- Authors: Jiaying Lin and Huankang Guan and Rynson W.H. Lau
- Abstract要約: SOR(Salient Object Ranking)は、入力画像内の複数のSORオブジェクトのSOR(Salient Object Ranking)をランク付けする。
最近では、予測固定マップに基づいて、入力ビデオ中の有能なオブジェクトをランク付けする手法が提案されている。
本稿では2つの新しいモジュールを持つビデオ・サリエント・オブジェクト・ランキング(VSOR)のエンドツーエンド手法を提案する。
- 参考スコア(独自算出の注目度): 39.091162729266294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Salient Object Ranking (SOR) involves ranking the degree of saliency of
multiple salient objects in an input image. Most recently, a method is proposed
for ranking salient objects in an input video based on a predicted fixation
map. It relies solely on the density of the fixations within the salient
objects to infer their saliency ranks, which is incompatible with human
perception of saliency ranking. In this work, we propose to explicitly learn
the spatial and temporal relations between different salient objects to produce
the saliency ranks. To this end, we propose an end-to-end method for video
salient object ranking (VSOR), with two novel modules: an intra-frame adaptive
relation (IAR) module to learn the spatial relation among the salient objects
in the same frame locally and globally, and an inter-frame dynamic relation
(IDR) module to model the temporal relation of saliency across different
frames. In addition, to address the limited video types (just sports and
movies) and scene diversity in the existing VSOR dataset, we propose a new
dataset that covers different video types and diverse scenes on a large scale.
Experimental results demonstrate that our method outperforms state-of-the-art
methods in relevant fields. We will make the source code and our proposed
dataset available.
- Abstract(参考訳): salient object ranking (sor) は、入力画像内の複数のsalient objectsのsaliencyの程度をランク付けする。
直近では,予測固定地図に基づく入力映像中のサルエント物体をランク付けする手法が提案されている。
それは、正当性ランキングに対する人間の認識とは相容れない、正当性ランクを推測するために、正当性オブジェクト内の固定物の密度にのみ依存する。
本研究では,異なるサルエントオブジェクト間の空間的および時間的関係を明示的に学習し,サルエンシーランクを生成することを提案する。
そこで本研究では,同一フレーム内のサリアンオブジェクト間の空間的関係を局所的かつグローバルに学習するiarモジュールと,異なるフレーム間のサリアンシーの時間的関係をモデル化するidrモジュールという,2つのモジュールを備えたビデオサリアンオブジェクトランキング(vsor)のエンド・ツー・エンド法を提案する。
さらに,既存のVSORデータセットの限られたビデオタイプ(スポーツや映画のみ)とシーンの多様性に対処するため,様々なビデオタイプと多様なシーンを大規模にカバーする新たなデータセットを提案する。
実験の結果,本手法は関連分野における最先端手法よりも優れていた。
ソースコードと提案したデータセットを利用可能にします。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Matching Anything by Segmenting Anything [109.2507425045143]
我々は、堅牢なインスタンスアソシエーション学習のための新しい手法であるMASAを提案する。
MASAは、徹底的なデータ変換を通じてインスタンスレベルの対応を学習する。
完全アノテートされたドメイン内ビデオシーケンスでトレーニングした最先端の手法よりも,MASAの方が優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-06T16:20:07Z) - Simplifying Open-Set Video Domain Adaptation with Contrastive Learning [16.72734794723157]
ラベル付きデータセットから非ラベル付きデータセットに予測モデルを適用するために、教師なしのビデオドメイン適応手法が提案されている。
我々は、OUVDA(Open-set Video Domain adapt)と呼ばれるより現実的なシナリオに対処し、ターゲットデータセットはソースと共有されていない"未知"セマンティックカテゴリを含む。
本稿では,ビデオデータ中の時間情報を自由に利用することで,特徴空間をよりよくクラスタ化できるビデオ指向の時間的コントラスト損失を提案する。
論文 参考訳(メタデータ) (2023-01-09T13:16:50Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Temporal Saliency Query Network for Efficient Video Recognition [82.52760040577864]
ビデオ認識は、インターネットやモバイルデバイス上でのマルチメディアデータの爆発的な成長に関するホットスポット研究のトピックである。
既存の方法の多くは、クラス固有のサリエンシスコアを意識せずに、サリエントフレームを選択する。
そこで我々は,Saliency Query (TSQ) 機構を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:23:34Z) - What and When to Look?: Temporal Span Proposal Network for Video Visual
Relation Detection [4.726777092009554]
Video Visual Relation Detection (VidD): セグメントベース、ウィンドウベース。
まず,2つの手法が持つ限界を指摘し,効率性と有効性という2つの利点を持つ新しい手法であるテンポラル・スパン・プロポーザル・ネットワーク(TSPN)を提案する。
論文 参考訳(メタデータ) (2021-07-15T07:01:26Z) - Salient Object Ranking with Position-Preserved Attention [44.94722064885407]
本研究では,検出対象のランク付け順序を視覚的サリエンシに応じて割り当てるSOR(Salient Object Ranking)タスクについて検討する。
本稿では,SORタスクの最初のエンドツーエンドフレームワークを提案し,マルチタスク学習方式で解決する。
また、SORブランチ用に調整されたPPAモジュールも導入する。
論文 参考訳(メタデータ) (2021-06-09T13:00:05Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。