論文の概要: SAMJAM: Zero-Shot Video Scene Graph Generation for Egocentric Kitchen Videos
- arxiv url: http://arxiv.org/abs/2504.07867v1
- Date: Thu, 10 Apr 2025 15:43:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:20:41.711914
- Title: SAMJAM: Zero-Shot Video Scene Graph Generation for Egocentric Kitchen Videos
- Title(参考訳): SAMJAM:エゴセントリックなキッチンビデオのためのゼロショットビデオシーングラフ生成
- Authors: Joshua Li, Fernando Jose Pena Cantu, Emily Yu, Alexander Wong, Yuchen Cui, Yuhao Chen,
- Abstract要約: VidSGGの現在のモデルはシーングラフを作成するために広範囲なトレーニングを必要とする。
本稿では,SAM2の時間追跡とGeminiのセマンティック理解を組み合わせたゼロショットパイプラインSAMJAMを提案する。
我々は、SAMJAMが、EPIC-KITCHENSとEPIC-KITCHENS-100データセットの平均リコールにおいて、Geminiを平均8.33%上回っていることを実証的に示す。
- 参考スコア(独自算出の注目度): 93.29815497662877
- License:
- Abstract: Video Scene Graph Generation (VidSGG) is an important topic in understanding dynamic kitchen environments. Current models for VidSGG require extensive training to produce scene graphs. Recently, Vision Language Models (VLM) and Vision Foundation Models (VFM) have demonstrated impressive zero-shot capabilities in a variety of tasks. However, VLMs like Gemini struggle with the dynamics for VidSGG, failing to maintain stable object identities across frames. To overcome this limitation, we propose SAMJAM, a zero-shot pipeline that combines SAM2's temporal tracking with Gemini's semantic understanding. SAM2 also improves upon Gemini's object grounding by producing more accurate bounding boxes. In our method, we first prompt Gemini to generate a frame-level scene graph. Then, we employ a matching algorithm to map each object in the scene graph with a SAM2-generated or SAM2-propagated mask, producing a temporally-consistent scene graph in dynamic environments. Finally, we repeat this process again in each of the following frames. We empirically demonstrate that SAMJAM outperforms Gemini by 8.33% in mean recall on the EPIC-KITCHENS and EPIC-KITCHENS-100 datasets.
- Abstract(参考訳): ビデオシーングラフ生成(VidSGG)は、動的キッチン環境を理解する上で重要なトピックである。
VidSGGの現在のモデルはシーングラフを作成するために広範囲なトレーニングを必要とする。
近年,視覚言語モデル (VLM) と視覚基礎モデル (VFM) は,様々なタスクにおいて印象的なゼロショット機能を示した。
しかし、GeminiのようなVLMはVidSGGのダイナミクスに苦慮し、フレーム間の安定したオブジェクトIDの維持に失敗した。
この制限を克服するために、SAM2の時間追跡とGeminiのセマンティック理解を組み合わせたゼロショットパイプラインSAMJAMを提案する。
SAM2はまた、より正確なバウンディングボックスを生成することで、ジェミニのオブジェクトグラウンドを改善する。
提案手法では,まずGeminiにフレームレベルのシーングラフを生成するように促す。
次に,シーングラフ内の各オブジェクトをSAM2生成マスクあるいはSAM2プロパゲートマスクでマッピングし,動的環境下で時間的に一貫性のあるシーングラフを生成する。
最後に、以下の各フレームでこのプロセスを繰り返す。
我々は、SAMJAMが、EPIC-KITCHENSとEPIC-KITCHENS-100データセットの平均リコールにおいて、Geminiを平均8.33%上回っていることを実証的に示す。
関連論文リスト
- Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文 参考訳(メタデータ) (2025-01-06T14:49:26Z) - SceneLLM: Implicit Language Reasoning in LLM for Dynamic Scene Graph Generation [8.768484848591168]
SceneLLMはビデオフレームを言語信号(シーントークン)に変換するフレームワークである
提案手法は,Action Genome (AG) ベンチマークの最先端結果を実現する。
大規模な実験は、正確な動的シーングラフの理解と生成におけるSceneLLMの有効性を示す。
論文 参考訳(メタデータ) (2024-12-15T02:41:31Z) - HyperGLM: HyperGraph for Video Scene Graph Generation and Anticipation [7.027942200231825]
ビデオシーングラフ生成(VidSGG)は、ビデオフレーム間のマルチオブジェクト関係をキャプチャするために登場した。
Scene HyperGraph (HyperGLM) 上でのマルチモーダル LLM を提案する。
我々は,3人称,自我中心,ドローンビューから1.9Mフレームを備えた新しいビデオシーングラフ推論データセットを紹介した。
論文 参考訳(メタデータ) (2024-11-27T04:24:39Z) - TESGNN: Temporal Equivariant Scene Graph Neural Networks for Efficient and Robust Multi-View 3D Scene Understanding [8.32401190051443]
本稿では,2つの鍵成分からなる時変Scene Graph Neural Network (TESGNN)を提案する。
ESGNNは、3次元点雲から情報を抽出し、重要な対称性特性を保持しながらシーングラフを生成する。
対称性保存特性を活用することにより,より安定かつ正確なグローバルシーン表現が得られることを示す。
論文 参考訳(メタデータ) (2024-11-15T15:39:04Z) - Joint Generative Modeling of Scene Graphs and Images via Diffusion
Models [37.788957749123725]
共同シーングラフ - 画像生成という,新しい生成タスクを提案する。
本稿では,隣接行列と不均一なノードとエッジ属性を併用した新しい拡散モデルDiffuseSGを提案する。
グラフ変換器をデノイザとし、DiffuseSGは連続空間におけるシーングラフ表現を連続的にデノイズし、最終表現を識別してクリーンなシーングラフを生成する。
論文 参考訳(メタデータ) (2024-01-02T10:10:29Z) - EPIC Fields: Marrying 3D Geometry and Video Understanding [76.60638761589065]
EPIC Fieldsは、EPIC-KITCHENSの3Dカメラ情報の拡張である。
これは、フォトグラムを使ってカメラを再構築する複雑で高価なステップを取り除く。
EPICKITCHENSのビデオの96%を再構築し、45のキッチンで99時間に19Mフレームを登録した。
論文 参考訳(メタデータ) (2023-06-14T20:33:49Z) - Bringing Image Scene Structure to Video via Frame-Clip Consistency of
Object Tokens [93.98605636451806]
StructureViTは、トレーニング中にのみ利用可能な少数の画像の構造を利用することで、ビデオモデルを改善する方法を示している。
SViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2022-06-13T17:45:05Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Compositional Video Synthesis with Action Graphs [112.94651460161992]
アクションのビデオは、空間と時間の豊富な構成構造を含む複雑な信号である。
本稿では、アクショングラフと呼ばれるグラフ構造におけるアクションを表現し、新しいアクショングラフ・トゥ・ビデオ合成タスクを提案する。
このタスクのための生成モデル(AG2Vid)は、動作と外観の特徴を歪め、アクションのスケジューリング機構を組み込むことで、タイムリーかつ協調的なビデオ生成を容易にする。
論文 参考訳(メタデータ) (2020-06-27T09:39:04Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。