論文の概要: LASER: Neuro-Symbolic Learning of Semantic Video Representations
- arxiv url: http://arxiv.org/abs/2304.07647v1
- Date: Sat, 15 Apr 2023 22:24:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 18:08:17.484191
- Title: LASER: Neuro-Symbolic Learning of Semantic Video Representations
- Title(参考訳): LASER: セマンティックビデオ表現のニューロシンボリック学習
- Authors: Jiani Huang, Ziyang Li, David Jacobs, Mayur Naik, Ser-Nam Lim
- Abstract要約: 本稿では,論理仕様を利用して意味的ビデオ表現を学習するニューロシンボリックアプローチを提案する。
特に、生のビデオと仕様の整合性の観点から問題を定式化する。
パイプラインはエンドツーエンドでトレーニングでき、コントラストやセマンティックな損失関数を組み込むことができます。
- 参考スコア(独自算出の注目度): 36.17674364281619
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern AI applications involving video, such as video-text alignment, video
search, and video captioning, benefit from a fine-grained understanding of
video semantics. Existing approaches for video understanding are either
data-hungry and need low-level annotation, or are based on general embeddings
that are uninterpretable and can miss important details. We propose LASER, a
neuro-symbolic approach that learns semantic video representations by
leveraging logic specifications that can capture rich spatial and temporal
properties in video data. In particular, we formulate the problem in terms of
alignment between raw videos and specifications. The alignment process
efficiently trains low-level perception models to extract a fine-grained video
representation that conforms to the desired high-level specification. Our
pipeline can be trained end-to-end and can incorporate contrastive and semantic
loss functions derived from specifications. We evaluate our method on two
datasets with rich spatial and temporal specifications:
20BN-Something-Something and MUGEN. We demonstrate that our method not only
learns fine-grained video semantics but also outperforms existing baselines on
downstream tasks such as video retrieval.
- Abstract(参考訳): ビデオテキストアライメント、ビデオ検索、ビデオキャプションなどのビデオを含む現代的なAIアプリケーションは、ビデオセマンティクスのきめ細かい理解の恩恵を受ける。
既存のビデオ理解のアプローチは、データハングリーで低レベルのアノテーションを必要とするか、あるいは解釈不能で重要な詳細を見逃しかねない一般的な埋め込みに基づいている。
本研究では,映像データにリッチな空間的および時間的特性をキャプチャできる論理仕様を活用し,意味的映像表現を学習するニューロシンボリックアプローチであるlaserを提案する。
特に、生のビデオと仕様の整合性の観点から問題を定式化する。
アライメントプロセスは、所望の高レベル仕様に準拠したきめ細かい映像表現を抽出するために、低レベルの知覚モデルを効率的に訓練する。
パイプラインはエンドツーエンドでトレーニングでき、仕様から派生したコントラストやセマンティックな損失関数を組み込むことができます。
空間的および時間的仕様に富む2つのデータセットについて,本手法を評価した。
本手法は,細粒度ビデオのセマンティクスを学習するだけでなく,ビデオ検索などの下流タスクにおける既存のベースラインよりも優れることを示す。
関連論文リスト
- Hierarchical Graph Pattern Understanding for Zero-Shot VOS [102.21052200245457]
本稿では、ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)のための新しい階層型グラフニューラルネットワーク(GNN)アーキテクチャを提案する。
構造的関係を捕捉するGNNの強い能力にインスパイアされたHGPUは、運動キュー(すなわち光の流れ)を革新的に活用し、ターゲットフレームの隣人からの高次表現を強化する。
論文 参考訳(メタデータ) (2023-12-15T04:13:21Z) - DynPoint: Dynamic Neural Point For View Synthesis [45.44096876841621]
我々は、制約のないモノクロビデオのための新しいビューの迅速な合成を容易にするアルゴリズムであるDynPointを提案する。
DynPointは、情報集約を実現するために、隣接するフレーム間の明示的な3D対応を予測することに集中している。
本手法は,ビデオコンテンツの正規表現を学習することなく,長時間の動画処理において強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-29T12:55:53Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Weakly-supervised Representation Learning for Video Alignment and
Analysis [16.80278496414627]
本稿では,新しい表現学習手法LRPropを紹介する。
提案アルゴリズムは、学習した特徴をよりよくチューニングするために、正規化されたSoftDTW損失も利用する。
我々の新しい表現学習パラダイムは、時間的アライメントタスクにおける技術の現状を一貫して上回ります。
論文 参考訳(メタデータ) (2023-02-08T14:01:01Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。