Fugu-MT 論文翻訳(概要): LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision

論文の概要: LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision

arxiv url: http://arxiv.org/abs/2304.07647v2
Date: Tue, 21 Nov 2023 07:21:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 05:27:35.479994
Title: LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision
Title（参考訳）: LASER:弱スーパービジョンを用いた時空間シーングラフ学習のためのニューロシンボリックフレームワーク
Authors: Jiani Huang, Ziyang Li, Mayur Naik, Ser-Nam Lim
Abstract要約: 我々は高レベルの論理仕様を利用して、豊かな空間的・時間的データをキャプチャする意味表現を学習する。提案手法は,既存のベースラインよりもきめ細かなビデオセマンティクスを学習できることを実証する。
参考スコア（独自算出の注目度）: 48.21734317337863
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We propose LASER, a neuro-symbolic approach to learn semantic video representations that capture rich spatial and temporal properties in video data by leveraging high-level logic specifications. In particular, we formulate the problem in terms of alignment between raw videos and spatio-temporal logic specifications. The alignment algorithm leverages a differentiable symbolic reasoner and a combination of contrastive, temporal, and semantics losses. It effectively and efficiently trains low-level perception models to extract fine-grained video representation in the form of a spatio-temporal scene graph that conforms to the desired high-level specification. In doing so, we explore a novel methodology that weakly supervises the learning of video semantic representations through logic specifications. We evaluate our method on two datasets with rich spatial and temporal specifications: 20BN-Something-Something and MUGEN. We demonstrate that our method learns better fine-grained video semantics than existing baselines.
Abstract（参考訳）: 本研究では,高レベル論理仕様を活用し,映像データの空間的および時間的特性をとらえた意味的映像表現を学習するためのニューロシンボリック手法である laser を提案する。特に,生映像と時空間論理仕様の整合の観点から問題を定式化する。アライメントアルゴリズムは、微分可能な記号的推論と、コントラスト的、時間的、セマンティクス的損失の組み合わせを利用する。低レベルの知覚モデルを効果的かつ効率的に訓練し、所望の高レベル仕様に準拠した時空間グラフの形で微細な映像表現を抽出する。そこで本研究では,論理仕様による映像意味表現の学習を弱く監督する手法を提案する。空間的および時間的仕様に富む2つのデータセットについて,本手法を評価した。提案手法は,既存のベースラインよりもきめ細かなビデオセマンティクスを学習できることを実証する。

関連論文リスト

STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning [65.36458157092207]
視覚言語モデル(VLM)では、テキスト記述と視覚座標のミスアライメントはしばしば幻覚を引き起こす。本稿では,座標の調整が難しい問題を回避するために,新しい視覚的プロンプトパラダイムを提案する。本稿では,STVGの最初の強化学習フレームワークであるSTVG-R1を紹介する。
論文参考訳（メタデータ） (2026-02-12T08:53:32Z)
Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention [28.598033369607723]
textscLight Forcingは、ARビデオ生成モデルに適した、テキストファーストのスパースアテンションソリューションである。 textitChunk-Aware Growthメカニズムを組み込んで,各チャンクのコントリビューションを定量的に見積もる。また,情報的歴史的・局所的文脈を粗い方法で捉えるために,テキストスパース注意を導入する。
論文参考訳（メタデータ） (2026-02-04T17:41:53Z)
Entropy-Guided k-Guard Sampling for Long-Horizon Autoregressive Video Generation [22.973340187143616]
トークン単位の分散に適応する手法として,Entropy-Guard k-gressive sampleを提案する。 ENkGは低エントロピー領域の適応トークン候補サイズを用いており、冗長ノイズを抑え、構造的整合性を維持するために少ない候補を用いる。実験では、静的トップk/トップp戦略と比較して知覚品質と構造安定性が一貫した改善を示した。
論文参考訳（メタデータ） (2026-01-27T11:19:53Z)
ESCA: Contextualizing Embodied Agents via Scene-Graph Generation [47.008144510161486]
本研究では,空間的時間的シーングラフの認識を基盤として,エンボディーズエージェントを文脈的に認識するフレームワークであるESCAを提案する。コアとなるSGCLIPは、シーングラフを生成するための、新しく、オープンドメインで、プロンプト可能な基盤モデルである。 SGCLIPは、プロンプトベースの推論とタスク固有の微調整の両方で優れており、シーングラフ生成とアクションローカライゼーションベンチマークにおける最先端の結果を達成する。
論文参考訳（メタデータ） (2025-10-11T20:13:59Z)
Enhancing Spectral Graph Neural Networks with LLM-Predicted Homophily [48.135717446964385]
スペクトルグラフニューラルネットワーク(SGNN)は,ノード分類などのタスクにおいて顕著な性能を実現している。本稿では,Large Language Models (LLMs) を利用してグラフのホモフィリーレベルを推定する新しいフレームワークを提案する。我々のフレームワークは、強力なSGNNベースラインよりもパフォーマンスを継続的に改善します。
論文参考訳（メタデータ） (2025-06-17T06:17:19Z)
Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次のトークン予測は,大規模言語モデル(LLM)のトレーニングの基本原則であるシーングラフデータセット上で,教師付き微調整(SFT)により学習したマルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。ノードレベルの報酬、エッジレベルの報酬、フォーマットの整合性報酬を統合したグラフ中心の報酬関数を設計する。
論文参考訳（メタデータ） (2025-04-18T10:46:22Z)
Leveraging Joint Predictive Embedding and Bayesian Inference in Graph Self Supervised Learning [0.0]
グラフ表現学習は、ノード分類やリンク予測といったタスクの基盤として登場した。現在の自己教師付き学習(SSL)手法は、計算の非効率性、対照的な目的への依存、表現の崩壊といった課題に直面している。本稿では,意味情報と構造情報を保存しながら,対照的な目的と負のサンプリングを排除したグラフSSLのための新しい結合埋め込み予測フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-02T07:42:45Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文参考訳（メタデータ） (2024-06-27T15:23:36Z)
OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition [8.18503795495178]
我々は、一般化可能なビデオ認識を容易にするために、テキスト知識の洗練を優先する。カテゴリー名の区別の少ない意味空間の限界に対処するため、我々は大規模言語モデル (LLM) を推し進める。我々の最良のモデルは、Kinetics-600で最先端のゼロショット精度75.1%を達成する。
論文参考訳（メタデータ） (2023-11-30T13:32:43Z)
DynPoint: Dynamic Neural Point For View Synthesis [45.44096876841621]
我々は、制約のないモノクロビデオのための新しいビューの迅速な合成を容易にするアルゴリズムであるDynPointを提案する。 DynPointは、情報集約を実現するために、隣接するフレーム間の明示的な3D対応を予測することに集中している。本手法は,ビデオコンテンツの正規表現を学習することなく,長時間の動画処理において強い堅牢性を示す。
論文参考訳（メタデータ） (2023-10-29T12:55:53Z)
TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文参考訳（メタデータ） (2023-05-23T15:44:56Z)
Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。 HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。 3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文参考訳（メタデータ） (2023-03-02T08:00:22Z)
Algorithm and System Co-design for Efficient Subgraph-based Graph Representation Learning [16.170895692951]
グラフ表現学習(SGRL)は、最近、標準グラフニューラルネットワーク(GNN)が直面するいくつかの根本的な課題に対処するために提案されている。本稿では,学習アルゴリズムとそのシステムサポートを共同設計し,スケーラブルなSGRLのための新しいフレームワークSURELを提案する。
論文参考訳（メタデータ） (2022-02-28T04:29:22Z)
TCGL: Temporal Contrastive Graph for Self-supervised Video Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。 TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文参考訳（メタデータ） (2021-12-07T09:27:56Z)
Spatial-Temporal Correlation and Topology Learning for Person Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。 CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文参考訳（メタデータ） (2021-04-15T14:32:12Z)
TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文参考訳（メタデータ） (2020-10-12T05:58:09Z)
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文参考訳（メタデータ） (2020-03-31T03:58:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。