論文の概要: Open-Vocabulary Temporal Action Detection with Off-the-Shelf Image-Text
Features
- arxiv url: http://arxiv.org/abs/2212.10596v1
- Date: Tue, 20 Dec 2022 19:12:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 15:06:14.093799
- Title: Open-Vocabulary Temporal Action Detection with Off-the-Shelf Image-Text
Features
- Title(参考訳): オフザシェルフ画像テキスト特徴を用いたオープンボキャブラリ時間行動検出
- Authors: Vivek Rathod, Bryan Seybold, Sudheendra Vijayanarasimhan, Austin
Myers, Xiuye Gu, Vighnesh Birodkar, David A. Ross
- Abstract要約: 本稿では,事前学習した画像テキストの共埋め込みを用いたオープン語彙時間的行動検出のための簡易かつ効果的な手法を提案する。
画像テキストの共埋め込みにより、完全に教師付きモデルと競合するオープンボキャブラリ性能が得られることを示す。
- 参考スコア(独自算出の注目度): 9.140696309404133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting actions in untrimmed videos should not be limited to a small,
closed set of classes. We present a simple, yet effective strategy for
open-vocabulary temporal action detection utilizing pretrained image-text
co-embeddings. Despite being trained on static images rather than videos, we
show that image-text co-embeddings enable openvocabulary performance
competitive with fully-supervised models. We show that the performance can be
further improved by ensembling the image-text features with features encoding
local motion, like optical flow based features, or other modalities, like
audio. In addition, we propose a more reasonable open-vocabulary evaluation
setting for the ActivityNet data set, where the category splits are based on
similarity rather than random assignment.
- Abstract(参考訳): 非トリミングビデオにおけるアクションの検出は、小さなクローズドクラスのクラスに限定されるべきではない。
本稿では,事前学習した画像テキストを用いた時間的オープンボキャブラリ検出のための簡易かつ効果的な手法を提案する。
ビデオではなく静的な画像で訓練されているにもかかわらず、画像テキストの共同エンベディングは完全な教師付きモデルと競合するopenvocabularyのパフォーマンスを可能にする。
また,光学的フローベース機能などの局所的な動きを符号化する機能や,オーディオなどのモダリティを組み込むことで,パフォーマンスをさらに向上できることを示す。
さらに,カテゴリ分割がランダムな代入ではなく類似性に基づいて行われるアクティビティネットデータセットに対して,より合理的なオープン語彙評価設定を提案する。
関連論文リスト
- IFCap: Image-like Retrieval and Frequency-based Entity Filtering for
Zero-shot Captioning [3.8265756182141346]
テキストの特徴を視覚的に関連性のある特徴と整合させてモダリティギャップを緩和する,イメージライクな検索手法を提案する。
本手法は,検索したキャプションを入力特徴と統合したFusion Moduleを設計することにより,生成されたキャプションの精度をさらに向上する。
論文 参考訳(メタデータ) (2024-09-26T16:47:32Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Open-Edit: Open-Domain Image Manipulation with Open-Vocabulary
Instructions [66.82547612097194]
そこで我々は,オープンドメイン画像操作のための新しいアルゴリズムOpen-Editを提案する。
本手法は、一般的な画像キャプチャーデータセット上で事前訓練された、統合されたビジュアル・セマンティックな埋め込み空間を利用する。
オープンドメイン画像の様々なシナリオに対して,オープンボキャブラリ色,テクスチャ,高レベル属性の操作に有望な結果を示す。
論文 参考訳(メタデータ) (2020-08-04T14:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。