Fugu-MT 論文翻訳(概要): UniST: Towards Unifying Saliency Transformer for Video Saliency Prediction and Detection

論文の概要: UniST: Towards Unifying Saliency Transformer for Video Saliency Prediction and Detection

arxiv url: http://arxiv.org/abs/2309.08220v1
Date: Fri, 15 Sep 2023 07:39:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-18 15:34:19.341737
Title: UniST: Towards Unifying Saliency Transformer for Video Saliency Prediction and Detection
Title（参考訳）: UniST:ビデオの相性予測と検出のための相性変換器の統合を目指して
Authors: Junwen Xiong, Peng Zhang, Chuanyue Li, Wei Huang, Yufei Zha, Tao You
Abstract要約: このフレームワークは、ビデオ・サリエンシ・予測とビデオ・サリエンシ・オブジェクト検出の基本的な属性を包括的に活用する。私たちの知る限りでは、これは、両方の相性モデリングタスクのためのトランスフォーマー構造の設計を探求する最初の作業です。
参考スコア（独自算出の注目度）: 9.063895463649414
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video saliency prediction and detection are thriving research domains that enable computers to simulate the distribution of visual attention akin to how humans perceiving dynamic scenes. While many approaches have crafted task-specific training paradigms for either video saliency prediction or video salient object detection tasks, few attention has been devoted to devising a generalized saliency modeling framework that seamlessly bridges both these distinct tasks. In this study, we introduce the Unified Saliency Transformer (UniST) framework, which comprehensively utilizes the essential attributes of video saliency prediction and video salient object detection. In addition to extracting representations of frame sequences, a saliency-aware transformer is designed to learn the spatio-temporal representations at progressively increased resolutions, while incorporating effective cross-scale saliency information to produce a robust representation. Furthermore, a task-specific decoder is proposed to perform the final prediction for each task. To the best of our knowledge, this is the first work that explores designing a transformer structure for both saliency modeling tasks. Convincible experiments demonstrate that the proposed UniST achieves superior performance across seven challenging benchmarks for two tasks, and significantly outperforms the other state-of-the-art methods.
Abstract（参考訳）: video saliency prediction and detectionは、コンピュータが視覚的な注意の分布をシミュレートする研究領域で、人間のダイナミックなシーンの認識に似ています。多くのアプローチは、ビデオサルジェンシー予測またはビデオサルエントオブジェクト検出タスクのためのタスク固有のトレーニングパラダイムを構築しているが、これら2つのタスクをシームレスに橋渡しする一般的なサルエンシーモデリングフレームワークを開発することにはほとんど注意が払われていない。本研究では,ビデオサリエンシー予測と映像サリエント物体検出の必須特性を包括的に活用する統一サリエンシートランス(unist)フレームワークを提案する。フレームシーケンスの表現の抽出に加えて,高解像度の時空間表現を漸進的に増加させるとともに,効果的なクロススケール・サリエンシ情報を活用してロバストな表現を生成する。さらに,タスク毎の最終予測を行うために,タスク固有のデコーダを提案する。私たちの知る限りでは、この作業は、両方のサリエンシーモデリングタスクのためのトランスフォーマー構造を設計するための最初の作業です。検証可能な実験により、提案したUniSTは、2つのタスクに対して7つの挑戦的なベンチマークで優れた性能を達成し、他の最先端の手法よりも大幅に優れていることが示された。

関連論文リスト

Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文参考訳（メタデータ） (2024-10-21T07:44:44Z)
DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文参考訳（メタデータ） (2024-06-06T18:12:04Z)
TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。最近のソリューションは主にオールインワンモデルです。汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文参考訳（メタデータ） (2024-03-12T22:33:02Z)
What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文参考訳（メタデータ） (2024-03-10T04:23:24Z)
What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文参考訳（メタデータ） (2023-11-03T18:09:08Z)
A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文参考訳（メタデータ） (2023-06-08T09:24:46Z)
STDepthFormer: Predicting Spatio-temporal Depth from Video with a Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文参考訳（メタデータ） (2023-03-02T12:22:51Z)
A Study on Self-Supervised Object Detection Pretraining [14.38896715041483]
対象検出モデルの自己教師付き事前学習に対する様々なアプローチについて検討する。まず、画像から空間的に一貫した密度表現を学習するための一般的なフレームワークを設計する。ボックス生成,特徴抽出戦略,複数ビューなど,文献における既存の設計選択について検討する。
論文参考訳（メタデータ） (2022-07-09T03:30:44Z)
Recent Trends in 2D Object Detection and Applications in Video Event Recognition [0.76146285961466]
物体検出における先駆的な研究について論じるとともに,近年のディープラーニングを活用したブレークスルーも取り上げている。本稿では、画像とビデオの両方で2次元物体検出のための最近のデータセットを強調し、様々な最先端物体検出技術の比較性能の概要を示す。
論文参考訳（メタデータ） (2022-02-07T14:15:11Z)
Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文参考訳（メタデータ） (2021-03-09T19:14:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。