論文の概要: Balancing long- and short-term dynamics for the modeling of saliency in videos
- arxiv url: http://arxiv.org/abs/2504.05913v1
- Date: Tue, 08 Apr 2025 11:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:29:43.249472
- Title: Balancing long- and short-term dynamics for the modeling of saliency in videos
- Title(参考訳): ビデオにおける塩分濃度のモデリングのための長期的・短期的ダイナミクスのバランス付け
- Authors: Theodor Wulff, Fares Abawi, Philipp Allgeuer, Stefan Wermter,
- Abstract要約: 本稿では,ビデオフレームの連立表現と過去の唾液度情報を学習するためのトランスフォーマーに基づくアプローチを提案する。
本モデルでは,映像中の塩分濃度の動的変動を検出するために,長期的,短期的な情報を埋め込んだ。
- 参考スコア(独自算出の注目度): 14.527351636175615
- License:
- Abstract: The role of long- and short-term dynamics towards salient object detection in videos is under-researched. We present a Transformer-based approach to learn a joint representation of video frames and past saliency information. Our model embeds long- and short-term information to detect dynamically shifting saliency in video. We provide our model with a stream of video frames and past saliency maps, which acts as a prior for the next prediction, and extract spatiotemporal tokens from both modalities. The decomposition of the frame sequence into tokens lets the model incorporate short-term information from within the token, while being able to make long-term connections between tokens throughout the sequence. The core of the system consists of a dual-stream Transformer architecture to process the extracted sequences independently before fusing the two modalities. Additionally, we apply a saliency-based masking scheme to the input frames to learn an embedding that facilitates the recognition of deviations from previous outputs. We observe that the additional prior information aids in the first detection of the salient location. Our findings indicate that the ratio of spatiotemporal long- and short-term features directly impacts the model's performance. While increasing the short-term context is beneficial up to a certain threshold, the model's performance greatly benefits from an expansion of the long-term context.
- Abstract(参考訳): ビデオにおける主観的物体検出に対する長期的・短期的ダイナミックスの役割について検討する。
本稿では,ビデオフレームの連立表現と過去の唾液度情報を学習するためのトランスフォーマーに基づくアプローチを提案する。
本モデルでは,映像中の塩分濃度の動的変動を検出するために,長期的,短期的な情報を埋め込んだ。
我々は、次の予測の先行として機能するビデオフレームと過去のサリエンシマップのストリームを提供し、両方のモダリティから時空間トークンを抽出する。
フレームシーケンスをトークンに分解することで、トークン内の短期的な情報をモデルに組み込むと同時に、トークン間の長期的接続をシーケンス全体で実現することが可能になる。
システムのコアは、2つのモードを融合する前に抽出されたシーケンスを独立に処理するデュアルストリームトランスフォーマーアーキテクチャで構成されている。
さらに、入力フレームにサリエンシベースのマスキングスキームを適用して、前の出力からのずれの認識を容易にする埋め込みを学習する。
付加的な事前情報により,その位置を初めて検出できることが観察された。
その結果,時空間的特徴と短期的特徴の比率がモデルの性能に直接影響することが示唆された。
短期的コンテキストの増加は一定のしきい値まで恩恵を受けるが、モデルの性能は長期的コンテキストの拡大から大きな恩恵を受ける。
関連論文リスト
- Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial
Video Classification [49.06447472006251]
本稿では,FuTH-Netと呼ばれる新しいディープニューラルネットワークを提案する。
本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
論文 参考訳(メタデータ) (2022-09-22T21:15:58Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - LocFormer: Enabling Transformers to Perform Temporal Moment Localization
on Long Untrimmed Videos With a Feature Sampling Approach [35.93734845932161]
LocFormerはビデオグラウンドのためのTransformerベースのモデルで、ビデオの長さに関わらず一定のメモリフットプリントで動作する。
本稿では,機能分離のためのモジュール設計を提案し,自己注意型ヘッドの監視を通じて帰納的バイアスを学習する。
論文 参考訳(メタデータ) (2021-12-19T05:32:14Z) - CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。
時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文 参考訳(メタデータ) (2021-07-16T17:57:44Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。