論文の概要: ViSAGE @ NTIRE 2026 Challenge on Video Saliency Prediction
- arxiv url: http://arxiv.org/abs/2604.08613v1
- Date: Thu, 09 Apr 2026 02:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.490153
- Title: ViSAGE @ NTIRE 2026 Challenge on Video Saliency Prediction
- Title(参考訳): ViSAGE @ NTIRE 2026 Challenge on Video Saliency Prediction
- Authors: Kun Wang, Yupeng Hu, Zhiran Li, Hao Liu, Qianlong Xiang, Liqiang Nie,
- Abstract要約: マルチエキスパート・アンサンブル・フレームワークであるAdaptive Gated Experts (ViSAGE) を用いたビデオ・サリエンシを提案する。
ViSAGEは様々な誘導バイアスを集約して、ビデオの複雑な時間的塩分濃度をキャプチャする。
プライベートテストセットでは、ViSAGEが4つの評価指標のうち2つにランクインし、他の2つの指標で最も競合するソリューションを上回った。
- 参考スコア(独自算出の注目度): 51.68198543931491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present our champion solution for the NTIRE 2026 Challenge on Video Saliency Prediction held in conjunction with CVPR 2026. To exploit complementary inductive biases for video saliency, we propose Video Saliency with Adaptive Gated Experts (ViSAGE), a multi-expert ensemble framework. Each specialized decoder performs adaptive gating and modulation to refine spatio-temporal features. The complementary predictions from different experts are then fused at inference. ViSAGE thereby aggregates diverse inductive biases to capture complex spatio-temporal saliency cues in videos. On the Private Test set, ViSAGE ranked first on two out of four evaluation metrics, and outperformed most competing solutions on the other two metrics, demonstrating its effectiveness and generalization ability. Our code has been released at https://github.com/iLearn-Lab/CVPRW26-ViSAGE.
- Abstract(参考訳): 本報告では,CVPR 2026と共同で開催されるNTIRE 2026 Challenge on Video Saliency Predictionのチャンピオンソリューションについて述べる。
ビデオ・サリエンシの相補的帰納バイアスを生かして,マルチエキスパート・アンサンブル・フレームワークであるAdaptive Gated Experts (ViSAGE) を用いたビデオ・サリエンシを提案する。
各特殊デコーダは適応的ゲーティングと変調を行い、時空間の特徴を洗練させる。
異なる専門家による補完的な予測は、推論によって融合される。
これにより、ViSAGEは様々な誘導バイアスを集約し、ビデオ内の複雑な時空間の静かさの手がかりをキャプチャする。
プライベートテストセットでは、ViSAGEが4つの評価指標のうち2つにランクインし、他の2つの指標で最も競合するソリューションを上回り、その有効性と一般化能力を実証した。
私たちのコードはhttps://github.com/iLearn-Lab/CVPRW26-ViSAGEで公開されています。
関連論文リスト
- DIVE: Deep-search Iterative Video Exploration A Technical Report for the CVRR Challenge at CVPR 2025 [0.0]
本稿では,2025年のコンプレックスビデオ推論・ロバストネス評価チャレンジにおいて,第1位を獲得した勝利のソリューションについて述べる。
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)ベンチマークを使用しており、11のカテゴリにまたがる214のユニークなビデオと2400の質問応答ペアで構成されている。
我々の手法であるDIVEは、各入力質問を意味的に分解し、ステップワイズ推論とプログレッシブ推論によって解決する反復推論手法を採用する。
論文 参考訳(メタデータ) (2025-06-27T04:05:12Z) - Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought [19.792159494513424]
ビデオ理解は、ビデオ分析からインタラクティブシステムまで、様々な用途に不可欠である。
視覚言語モデルの発展にもかかわらず、これらのモデルはしばしば、微妙で時間的な詳細を捉えるのに苦労する。
これを解決するために、ビデオ理解を強化するために設計された画期的なデータセットであるVideo-Thoughtを紹介した。
論文 参考訳(メタデータ) (2025-06-10T14:08:56Z) - AIM 2024 Challenge on Video Saliency Prediction: Methods and Results [105.09572982350532]
本稿では,AIM 2024におけるビデオ・サリエンシ予測の課題について概説する。
参加者の目標は、提供されたビデオシーケンスのセットに対して正確な精度マップを予測する方法を開発することであった。
論文 参考訳(メタデータ) (2024-09-23T08:59:22Z) - VideoPrism: A Foundational Visual Encoder for Video Understanding [90.01845485201746]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。
我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。
我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち31で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-02-20T18:29:49Z) - A Solution to CVPR'2023 AQTC Challenge: Video Alignment for Multi-Step
Inference [51.26551806938455]
Egocentric AssistantのためのAQTC(Affordance-centric Question-driven Task Completion)は、画期的なシナリオを導入している。
マルチステップ推論を改善するために,映像アライメント向上のためのソリューションを提案する。
CVPR'2023 AQTCでは2位であった。
論文 参考訳(メタデータ) (2023-06-26T04:19:33Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - Anticipative Video Transformer [105.20878510342551]
Precipative Video Transformer (AVT) は、エンド・ツー・エンドの注意に基づくビデオモデリングアーキテクチャである。
我々は,連続した将来のフレームの特徴を予測可能なフレーム特徴エンコーダを学習しながら,ビデオシーケンスにおける次のアクションを予測するためにモデルを共同で訓練する。
論文 参考訳(メタデータ) (2021-06-03T17:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。