論文の概要: LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision
- arxiv url: http://arxiv.org/abs/2304.07647v4
- Date: Wed, 12 Jun 2024 17:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 01:42:49.785150
- Title: LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision
- Title(参考訳): LASER: 弱スーパービジョンを用いた時空間シーングラフ学習のためのニューロシンボリックフレームワーク
- Authors: Jiani Huang, Ziyang Li, Mayur Naik, Ser-Nam Lim,
- Abstract要約: 我々は,高レベルな論理仕様を利用して,映像データの空間的・時間的リッチな特徴を捉えるセマンティックな特性を学習する。
20BN-Something-GEN, MUGEN, OpenPVSG という, 空間表現と時間仕様の豊富な3つのデータセットについて評価を行った。
- 参考スコア(独自算出の注目度): 44.13777026011408
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose LASER, a neuro-symbolic approach to learn semantic video representations that capture rich spatial and temporal properties in video data by leveraging high-level logic specifications. In particular, we formulate the problem in terms of alignment between raw videos and spatio-temporal logic specifications. The alignment algorithm leverages a differentiable symbolic reasoner and a combination of contrastive, temporal, and semantics losses. It effectively and efficiently trains low-level perception models to extract a fine-grained video representation in the form of a spatio-temporal scene graph that conforms to the desired high-level specification. To practically reduce the manual effort of obtaining ground truth labels, we derive logic specifications from captions by employing a large language model with a generic prompting template. In doing so, we explore a novel methodology that weakly supervises the learning of spatio-temporal scene graphs with widely accessible video-caption data. We evaluate our method on three datasets with rich spatial and temporal specifications: 20BN-Something-Something, MUGEN, and OpenPVSG. We demonstrate that our method learns better fine-grained video semantics than existing baselines.
- Abstract(参考訳): 本稿では,高レベルな論理仕様を利用して,映像データの空間的・時間的特性を豊かに捉えた意味的ビデオ表現を学習するための,ニューラルシンボリックなアプローチであるLASERを提案する。
特に、生ビデオと時空間論理仕様の整合性の観点から問題を定式化する。
アライメントアルゴリズムは、微分可能な記号的推論と、コントラスト的、時間的、セマンティクス的損失の組み合わせを利用する。
低レベルの知覚モデルを効果的かつ効率的に訓練し、所望の高レベル仕様に準拠した時空間グラフの形できめ細かな映像表現を抽出する。
基礎となる真理ラベルを手作業で取得する作業を大幅に削減するため,汎用的なプロンプトテンプレートを備えた大規模言語モデルを用いて,キャプションから論理仕様を導出する。
そこで我々は,広範にアクセス可能なビデオキャプチャーデータを用いた時空間グラフの学習を弱く監督する新しい手法を探求する。
20BN-Something-Something, MUGEN, OpenPVSG。
提案手法は,既存のベースラインよりもきめ細かなビデオセマンティクスを学習できることを実証する。
関連論文リスト
- OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition [8.18503795495178]
我々は、一般化可能なビデオ認識を容易にするために、テキスト知識の洗練を優先する。
カテゴリー名の区別の少ない意味空間の限界に対処するため、我々は大規模言語モデル (LLM) を推し進める。
我々の最良のモデルは、Kinetics-600で最先端のゼロショット精度75.1%を達成する。
論文 参考訳(メタデータ) (2023-11-30T13:32:43Z) - DynPoint: Dynamic Neural Point For View Synthesis [45.44096876841621]
我々は、制約のないモノクロビデオのための新しいビューの迅速な合成を容易にするアルゴリズムであるDynPointを提案する。
DynPointは、情報集約を実現するために、隣接するフレーム間の明示的な3D対応を予測することに集中している。
本手法は,ビデオコンテンツの正規表現を学習することなく,長時間の動画処理において強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-29T12:55:53Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。