論文の概要: LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision
- arxiv url: http://arxiv.org/abs/2304.07647v5
- Date: Tue, 22 Apr 2025 17:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 05:24:49.634674
- Title: LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision
- Title(参考訳): LASER: 弱スーパービジョンを用いた時空間シーングラフ学習のためのニューロシンボリックフレームワーク
- Authors: Jiani Huang, Ziyang Li, Mayur Naik, Ser-Nam Lim,
- Abstract要約: 本稿では,ビデオキャプションのみを用いて,ジェネレータの訓練を可能にするニューロシンボリックフレームワークを提案する。
アライメントアルゴリズムは、微分可能なシンボリック推論を利用することにより、弱い監督の課題を克服する。
提案手法を,OpenPVSG,20BN,MUGENの3つのビデオデータセット上で評価した。
- 参考スコア(独自算出の注目度): 44.13777026011408
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Supervised approaches for learning spatio-temporal scene graphs (STSG) from video are greatly hindered due to their reliance on STSG-annotated videos, which are labor-intensive to construct at scale. Is it feasible to instead use readily available video captions as weak supervision? To address this question, we propose LASER, a neuro-symbolic framework to enable training STSG generators using only video captions. LASER employs large language models to first extract logical specifications with rich spatio-temporal semantic information from video captions. LASER then trains the underlying STSG generator to align the predicted STSG with the specification. The alignment algorithm overcomes the challenges of weak supervision by leveraging a differentiable symbolic reasoner and using a combination of contrastive, temporal, and semantics losses. The overall approach efficiently trains low-level perception models to extract a fine-grained STSG that conforms to the video caption. In doing so, it enables a novel methodology for learning STSGs without tedious annotations. We evaluate our method on three video datasets: OpenPVSG, 20BN, and MUGEN. Our approach demonstrates substantial improvements over fully-supervised baselines, achieving a unary predicate prediction accuracy of 27.78% (+12.65%) and a binary recall@5 of 0.42 (+0.22) on OpenPVSG. Additionally, LASER exceeds baselines by 7% on 20BN and 5.2% on MUGEN in terms of overall predicate prediction accuracy.
- Abstract(参考訳): ビデオから時空間グラフ(STSG)を学習するための改良されたアプローチは、大規模な構築に労力を要するSTSGアノテーション付きビデオに依存しているため、大きな障害となる。
簡単に使えるビデオキャプションを、監督の弱いものとして使うことは可能か?
そこで本研究では,ビデオキャプションのみを用いたSTSGジェネレータのトレーニングを可能にするニューロシンボリックフレームワークであるLASERを提案する。
LASERは大きな言語モデルを用いて、ビデオキャプションから豊かな時空間意味情報を持つ論理仕様を抽出する。
LASERは基盤となるSTSGジェネレータをトレーニングし、予測されたSTSGと仕様を整列させる。
アライメントアルゴリズムは、識別可能な記号的推論を利用し、コントラスト的、時間的、セマンティクス的損失の組み合わせを使用することで、弱い監督の課題を克服する。
全体的なアプローチは、ビデオキャプションに適合する細かいSTSGを抽出するために、低レベルの知覚モデルを効率的に訓練する。
そうすることで、退屈なアノテーションを使わずにSTSGを学習するための新しい方法論が可能になる。
提案手法を,OpenPVSG,20BN,MUGENの3つのビデオデータセット上で評価した。
提案手法は,OpenPVSG上で27.78% (+12.65%) の予測精度と0.42 (+0.22) のリコール@5を達成した。
さらに、LASERは20BNで7%、MUGENで5.2%のベースラインを超える。
関連論文リスト
- Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次のトークン予測は,大規模言語モデル(LLM)のトレーニングの基本原則である
シーングラフデータセット上で,教師付き微調整(SFT)により学習したマルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
ノードレベルの報酬、エッジレベルの報酬、フォーマットの整合性報酬を統合したグラフ中心の報酬関数を設計する。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Leveraging Joint Predictive Embedding and Bayesian Inference in Graph Self Supervised Learning [0.0]
グラフ表現学習は、ノード分類やリンク予測といったタスクの基盤として登場した。
現在の自己教師付き学習(SSL)手法は、計算の非効率性、対照的な目的への依存、表現の崩壊といった課題に直面している。
本稿では,意味情報と構造情報を保存しながら,対照的な目的と負のサンプリングを排除したグラフSSLのための新しい結合埋め込み予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-02T07:42:45Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition [8.18503795495178]
我々は、一般化可能なビデオ認識を容易にするために、テキスト知識の洗練を優先する。
カテゴリー名の区別の少ない意味空間の限界に対処するため、我々は大規模言語モデル (LLM) を推し進める。
我々の最良のモデルは、Kinetics-600で最先端のゼロショット精度75.1%を達成する。
論文 参考訳(メタデータ) (2023-11-30T13:32:43Z) - DynPoint: Dynamic Neural Point For View Synthesis [45.44096876841621]
我々は、制約のないモノクロビデオのための新しいビューの迅速な合成を容易にするアルゴリズムであるDynPointを提案する。
DynPointは、情報集約を実現するために、隣接するフレーム間の明示的な3D対応を予測することに集中している。
本手法は,ビデオコンテンツの正規表現を学習することなく,長時間の動画処理において強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-29T12:55:53Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Algorithm and System Co-design for Efficient Subgraph-based Graph
Representation Learning [16.170895692951]
グラフ表現学習(SGRL)は、最近、標準グラフニューラルネットワーク(GNN)が直面するいくつかの根本的な課題に対処するために提案されている。
本稿では,学習アルゴリズムとそのシステムサポートを共同設計し,スケーラブルなSGRLのための新しいフレームワークSURELを提案する。
論文 参考訳(メタデータ) (2022-02-28T04:29:22Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。