論文の概要: SimBase: A Simple Baseline for Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2411.07945v1
- Date: Tue, 12 Nov 2024 17:17:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:21:09.312111
- Title: SimBase: A Simple Baseline for Temporal Video Grounding
- Title(参考訳): SimBase: 時間的ビデオグラウンドのためのシンプルなベースライン
- Authors: Peijun Bao, Alex C. Kot,
- Abstract要約: SimBaseは、時間的ビデオグラウンドのためのシンプルだが効果的なベースラインである。
複雑な時間構造ではなく、軽量で1次元の時間的畳み込み層を利用するネットワークであるSimBaseを設計する。
SimBaseは2つの大規模データセットに対して最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 33.06266571960504
- License:
- Abstract: This paper presents SimBase, a simple yet effective baseline for temporal video grounding. While recent advances in temporal grounding have led to impressive performance, they have also driven network architectures toward greater complexity, with a range of methods to (1) capture temporal relationships and (2) achieve effective multimodal fusion. In contrast, this paper explores the question: How effective can a simplified approach be? To investigate, we design SimBase, a network that leverages lightweight, one-dimensional temporal convolutional layers instead of complex temporal structures. For cross-modal interaction, SimBase only employs an element-wise product instead of intricate multimodal fusion. Remarkably, SimBase achieves state-of-the-art results on two large-scale datasets. As a simple yet powerful baseline, we hope SimBase will spark new ideas and streamline future evaluations in temporal video grounding.
- Abstract(参考訳): 本稿では,時間的ビデオグラウンドニングのためのシンプルで効果的なベースラインであるSimBaseについて述べる。
近年の時間的基盤化の進歩は目覚ましい性能をもたらしたが、ネットワークアーキテクチャをより複雑にし、(1)時間的関係を捕捉し、(2)効果的なマルチモーダル融合を実現するための様々な手法を編み出した。
対照的に、本稿では、シンプルなアプローチがどの程度効果的か、という疑問を論じる。
そこで我々は,複雑な時間構造ではなく,軽量で1次元の時間的畳み込み層を利用するネットワークであるSimBaseを設計した。
クロスモーダルな相互作用では、SimBaseは複雑なマルチモーダル融合ではなく、要素的積のみを使用する。
注目すべきは、SimBaseが2つの大規模データセットで最先端の結果を達成することだ。
シンプルだが強力なベースラインとして、SimBaseが新たなアイデアを刺激し、時間的ビデオグラウンドにおける将来の評価を合理化することを期待しています。
関連論文リスト
- SimVG: A Simple Framework for Visual Grounding with Decoupled Multi-modal Fusion [20.016192628108158]
視覚的接地は、画像の対応する領域に記述文を接地する、一般的な視覚課題である。
既存のほとんどの手法では、独立した画像テキストエンコーディングを使用し、複雑な手作りモジュールやエンコーダ・デコーダアーキテクチャを用いてモーダルインタラクションやクエリ推論を行っている。
これは、前者のパラダイムがマルチモーダルな特徴融合に適合するために、限られた下流データのみを使用するためである。
本稿では,ビジュアルグラウンドティングのためのシンプルだが頑健なトランスフォーマーベースのフレームワーク,SimVGを提案する。
論文 参考訳(メタデータ) (2024-09-26T04:36:19Z) - Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for
Complex Visual Reasoning Tasks [4.093474663507322]
ブリッジアーキテクチャは、VQA、キャプション、画像検索といったタスクを解決するために、画像空間からテキスト空間へのプロジェクトである。
我々はNLVR2データセットの従来のブリッジアーキテクチャを拡張し、細粒度オブジェクト推論をファシリケートするためにオブジェクトレベル機能を追加する。
我々の分析では、ブリッジアーキテクチャにオブジェクトレベル機能を追加しても役に立ちませんし、NLVR2のような複雑な推論タスクにおいて、マルチモーダルデータでの事前トレーニングが良いパフォーマンスの鍵であることを示しています。
論文 参考訳(メタデータ) (2023-07-31T03:57:31Z) - Learnable Pillar-based Re-ranking for Image-Text Retrieval [119.9979224297237]
画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T04:33:27Z) - SWTF: Sparse Weighted Temporal Fusion for Drone-Based Activity
Recognition [2.7677069267434873]
ドローンカメラによる人間活動認識(HAR)はコンピュータビジョン研究コミュニティから大きな注目を集めている。
本稿では,スパース標本化ビデオフレームを利用する新しいSparse Weighted Temporal Fusion (SWTF) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
論文 参考訳(メタデータ) (2022-11-10T12:45:43Z) - A Simple Baseline for Video Restoration with Grouped Spatial-temporal
Shift [36.71578909392314]
本研究では,ビデオ復元のための簡易かつ効果的なフレームワークを提案する。
我々のアプローチは、軽量で簡単な手法であるグループ化された時空間シフトに基づいている。
我々のフレームワークは従来の最先端手法よりも優れており、計算コストの4分の1以下である。
論文 参考訳(メタデータ) (2022-06-22T02:16:47Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Boundary-Aware Segmentation Network for Mobile and Web Applications [60.815545591314915]
境界認識ネットワーク(basnet)は、精度の高い画像分割のための予測再定義アーキテクチャとハイブリッド損失と統合されている。
basnetは単一のgpu上で70fps以上動作し、多くの潜在的なアプリケーションが利用できる。
BASNetをベースに、BASNetが「COPY」と「PASTING」現実世界のオブジェクトのための拡張現実であるAR COPY & PASTEと、オブジェクト背景の自動削除のためのWebベースのツールであるOBJECT CUTの2つの(近い)商用アプリケーションをさらに開発しました。
論文 参考訳(メタデータ) (2021-01-12T19:20:26Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z) - ML-SIM: A deep neural network for reconstruction of structured
illumination microscopy images [0.0]
構造照明顕微鏡 (SIM) は, 光学超高分解能イメージングにおいて重要な技術となっている。
本稿では機械学習を利用した多目的再構成手法ML-SIMを提案する。
したがって、ML-SIMは生のSIM入力フレームの照明パターンにおけるノイズや不規則に対して堅牢である。
論文 参考訳(メタデータ) (2020-03-24T18:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。