論文の概要: Text-Visual Prompting for Efficient 2D Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2303.04995v3
- Date: Wed, 4 Oct 2023 10:39:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 22:19:41.977441
- Title: Text-Visual Prompting for Efficient 2D Temporal Video Grounding
- Title(参考訳): 効率的な2次元ビデオグラウンドティングのためのテキスト・ビジュアル・プロンプティング
- Authors: Yimeng Zhang, Xin Chen, Jinghan Jia, Sijia Liu, Ke Ding
- Abstract要約: 時間的ビデオグラウンドリング(TVG)の問題点について検討する。
TVGは、長いビデオの中でテキストによって記述されたモーメントの開始から終了までの時間ポイントを予測することを目的としている。
新たなテキスト・ビジュアル・プロンプト・フレームワーク(TVP)を提案する。
TVPは、最適化された摂動パターン("prompts"と呼ぶ)をTVGモデルの視覚的入力とテキスト的特徴の両方に組み込んでいる。
- 参考スコア(独自算出の注目度): 22.454270285331106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the problem of temporal video grounding (TVG), which
aims to predict the starting/ending time points of moments described by a text
sentence within a long untrimmed video. Benefiting from fine-grained 3D visual
features, the TVG techniques have achieved remarkable progress in recent years.
However, the high complexity of 3D convolutional neural networks (CNNs) makes
extracting dense 3D visual features time-consuming, which calls for intensive
memory and computing resources. Towards efficient TVG, we propose a novel
text-visual prompting (TVP) framework, which incorporates optimized
perturbation patterns (that we call 'prompts') into both visual inputs and
textual features of a TVG model. In sharp contrast to 3D CNNs, we show that TVP
allows us to effectively co-train vision encoder and language encoder in a 2D
TVG model and improves the performance of crossmodal feature fusion using only
low-complexity sparse 2D visual features. Further, we propose a
Temporal-Distance IoU (TDIoU) loss for efficient learning of TVG. Experiments
on two benchmark datasets, Charades-STA and ActivityNet Captions datasets,
empirically show that the proposed TVP significantly boosts the performance of
2D TVG (e.g., 9.79% improvement on Charades-STA and 30.77% improvement on
ActivityNet Captions) and achieves 5x inference acceleration over TVG using 3D
visual features. Codes are available at Open.Intel.
- Abstract(参考訳): 本稿では,長編未編集ビデオにおけるテキスト記述の開始時点と終了時点の予測を目的とした,時間的ビデオグラウンドリング(TVG)の問題について検討する。
細粒度の3D視覚的特徴を活かしたTVG技術は,近年,目覚ましい進歩を遂げている。
しかし、3D畳み込みニューラルネットワーク(CNN)の複雑さが高いため、高密度な3D視覚特徴の抽出には時間を要する。
そこで我々は,TVGモデルの視覚的入力とテキスト的特徴の両方に,最適化された摂動パターン("prompts"と呼ぶ)を組み込んだ,新しいテキスト視覚プロンプト(TVP)フレームワークを提案する。
3d cnnとは対照的に,2d tvgモデルでは視覚エンコーダと言語エンコーダを効果的に共訓練でき,低複雑さのスパース2d視覚機能のみを用いたクロスモーダル特徴融合の性能が向上することを示す。
さらに,TVGを効率的に学習するための時間距離IoU(TDIoU)損失を提案する。
2つのベンチマークデータセットであるCharades-STAとActivityNet Captionsデータセットの実験では、提案されたTVPが2D TVG(例えば、Charades-STAは9.79%改善、ActivityNet Captionsは30.77%改善)の性能を大幅に向上し、TVGよりも5倍の推論加速を実現している。
コードはOpen.Intelで入手できる。
関連論文リスト
- Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [28.33270078863519]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - Spice-E : Structural Priors in 3D Diffusion using Cross-Entity Attention [9.52027244702166]
Spice-Eは3D拡散モデルに構造ガイダンスを追加するニューラルネットワークである。
提案手法は,3次元スタイリゼーション,意味的形状の編集,テキスト条件の抽象化-to-3Dなど,様々なアプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-29T17:36:49Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Instant3D: Instant Text-to-3D Generation [101.25562463919795]
Instant3Dと呼ばれる高速テキストから3D生成のための新しいフレームワークを提案する。
Instant3Dはフィードフォワードネットワークの単一実行で1秒未満で、目に見えないテキストプロンプトのための3Dオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2023-11-14T18:59:59Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - CPGNet: Cascade Point-Grid Fusion Network for Real-Time LiDAR Semantic
Segmentation [8.944151935020992]
本稿では,有効性と効率を両立するカスケードポイントグリッド融合ネットワーク(CPGNet)を提案する。
アンサンブルモデルやTTAのないCPGNetは最先端のRPVNetと同等だが、4.7倍高速である。
論文 参考訳(メタデータ) (2022-04-21T06:56:30Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion
Forecasting with a Single Convolutional Net [93.51773847125014]
本研究では,3Dセンサが捉えたデータを用いて,3D検出,追跡,動作予測を共同で推論する,新たなディープニューラルネットワークを提案する。
鳥の眼球を3次元の世界として表現し,空間と時間にまたがる3次元畳み込みを行う。
論文 参考訳(メタデータ) (2020-12-22T22:43:35Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。