論文の概要: Specification-Driven Video Search via Foundation Models and Formal
Verification
- arxiv url: http://arxiv.org/abs/2309.10171v1
- Date: Mon, 18 Sep 2023 21:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 17:15:24.118527
- Title: Specification-Driven Video Search via Foundation Models and Formal
Verification
- Title(参考訳): 基礎モデルと形式的検証による仕様駆動ビデオ検索
- Authors: Yunhao Yang, Jean-Rapha\"el Gaglione, Sandeep Chinchali, Ufuk Topcu
- Abstract要約: 本研究では,ビデオクリップの興味のある事象を自動かつ効率的に検索する手法を開発した。
プライバシーに敏感なビデオや最先端の自動運転データセットを検索すると、90%以上の精度が達成される。
- 参考スコア(独自算出の注目度): 20.0161635270183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing abundance of video data enables users to search for events of
interest, e.g., emergency incidents. Meanwhile, it raises new concerns, such as
the need for preserving privacy. Existing approaches to video search require
either manual inspection or a deep learning model with massive training. We
develop a method that uses recent advances in vision and language models, as
well as formal methods, to search for events of interest in video clips
automatically and efficiently. The method consists of an algorithm to map
text-based event descriptions into linear temporal logic over finite traces
(LTL$_f$) and an algorithm to construct an automaton encoding the video
information. Then, the method formally verifies the automaton representing the
video against the LTL$_f$ specifications and adds the pertinent video clips to
the search result if the automaton satisfies the specifications. We provide
qualitative and quantitative analysis to demonstrate the video-searching
capability of the proposed method. It achieves over 90 percent precision in
searching over privacy-sensitive videos and a state-of-the-art autonomous
driving dataset.
- Abstract(参考訳): ビデオデータの豊富化により、ユーザーは、例えば緊急時など、興味のあるイベントを検索できる。
一方、プライバシー保護の必要性など、新たな懸念が浮かび上がっている。
既存のビデオ検索アプローチでは、手動検査または大規模なトレーニングを伴うディープラーニングモデルが必要である。
近年の視覚・言語モデルの進歩とフォーマルな手法を用いて,映像クリップの興味のある事象を自動かつ効率的に検索する手法を開発した。
テキストベースのイベント記述を有限トレース(LTL$_f$)上の線形時間論理にマッピングするアルゴリズムと、映像情報を符号化するオートマトンを構築するアルゴリズムとから構成される。
そして、この方法は、ltl$_f$仕様に対してビデオを表すオートマトンを正式に検証し、オートマトンが仕様を満たす場合、検索結果に関連するビデオクリップを追加する。
提案手法の映像検索能力を実証するために,定性的かつ定量的に分析する。
プライバシーに敏感なビデオや最先端の自動運転データセットを検索する精度は90%を超えている。
関連論文リスト
- Neuro-Symbolic Evaluation of Text-to-Video Models using Formalf Verification [5.468979600421325]
我々は,新しい合成ビデオ評価指標であるNeuS-Vを紹介する。
NeuS-Vは、ニューロシンボリック形式検証技術を用いて、テキストとビデオのアライメントを厳格に評価する。
既存の指標と比較すると,NeuS-Vは5倍以上の相関性を示すことがわかった。
論文 参考訳(メタデータ) (2024-11-22T23:59:12Z) - Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - Learning to Identify Critical States for Reinforcement Learning from
Videos [55.75825780842156]
優れたポリシに関するアルゴリズム情報は、実行されたアクションに関する明示的な情報を持たないオフラインデータから抽出することができる。
例えば、人間やロボットのビデオは、アクションシーケンスに対する報酬に関する暗黙の情報を多く伝達することができる。
このようなビデオを見て利益を得たいDRLマシンは、まず、関連する状態/アクション/リワードを識別し、認識するために、自分で学習する必要がある。
論文 参考訳(メタデータ) (2023-08-15T14:21:24Z) - Active Learning for Video Classification with Frame Level Queries [13.135234328352885]
ビデオ分類のための新しいアクティブラーニングフレームワークを提案する。
本フレームワークでは,ビデオ毎に一組の映像と,一組の情報フレームを識別する。
これは、ラベルを付けるための完全なビデオを見るよりも、手作業で作業する方がずっと少ない。
論文 参考訳(メタデータ) (2023-07-10T15:47:13Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Self-supervised Video Retrieval Transformer Network [10.456881328982586]
SVRTNは,ラベルのないデータから映像表現を学習するための自己教師あり学習法である。
トランスフォーマー構造を利用してフレームレベルの機能をクリップレベルに集約し、ストレージスペースと検索の複雑さを減らす。
クリップフレーム間の相互作用から相補的および識別的な情報を学び、フレームの置換や、より柔軟な検索方法をサポートする不変性を欠くことができる。
論文 参考訳(メタデータ) (2021-04-16T09:43:45Z) - Automated Video Labelling: Identifying Faces by Corroborative Evidence [79.44208317138784]
本稿では,複数のエビデンスソースと複数のモダリティを組み合わせることで,テレビ放送などのビデオアーカイブ内のすべての顔を自動的にラベル付けする手法を提案する。
本研究では,人物が有名であるか否かを画像検索エンジンを用いて判定する,新しい,シンプルな手法を提案する。
あまり有名でない人であっても、画像検索エンジンは、シーンやスピーチで命名された顔の正確なラベル付けに役立てることができる。
論文 参考訳(メタデータ) (2021-02-10T18:57:52Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。