論文の概要: OOTSM: A Decoupled Linguistic Framework for Effective Scene Graph Anticipation
- arxiv url: http://arxiv.org/abs/2509.05661v1
- Date: Sat, 06 Sep 2025 09:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.638597
- Title: OOTSM: A Decoupled Linguistic Framework for Effective Scene Graph Anticipation
- Title(参考訳): OOTSM: 効果的なシーングラフ予測のための分離言語フレームワーク
- Authors: Xiaomeng Zhu, Changwei Wang, Haozhe Wang, Xinyu Liu, Fangzhen Lin,
- Abstract要約: SGA(Scene Graph Precipation)は、ビデオクリップから将来のシーングラフを予測する。
既存のSGAアプローチは視覚的手がかりを活用し、しばしば貴重なコモンセンス知識を統合するのに苦労する。
シーングラフにおけるオブジェクト,概念,関係をよりよく理解するための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 14.938566273427098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A scene graph is a structured represention of objects and their relationships in a scene. Scene Graph Anticipation (SGA) involves predicting future scene graphs from video clips, enabling applications as intelligent surveillance and human-machine collaboration. Existing SGA approaches primarily leverage visual cues, often struggling to integrate valuable commonsense knowledge, thereby limiting long-term prediction robustness. To explicitly leverage such commonsense knowledge, we propose a new approach to better understand the objects, concepts, and relationships in a scene graph. Our approach decouples the SGA task in two steps: first a scene graph capturing model is used to convert a video clip into a sequence of scene graphs, then a pure text-based model is used to predict scene graphs in future frames. Our focus in this work is on the second step, and we call it Linguistic Scene Graph Anticipation (LSGA) and believes it should have independent interest beyond the use in SGA discussed here. For LSGA, we introduce an Object-Oriented Two-Staged Method (OOTSM) where an Large Language Model (LLM) first forecasts object appearances and disappearances before generating detailed human-object relations. We conduct extensive experiments to evaluate OOTSM in two settings. For LSGA, we evaluate our fine-tuned open-sourced LLMs against zero-shot APIs (i.e., GPT-4o, GPT-4o-mini, and DeepSeek-V3) on a benchmark constructed from Action Genome annotations. For SGA, we combine our OOTSM with STTran++ from, and our experiments demonstrate effective state-of-the-art performance: short-term mean-Recall (@10) increases by 3.4% while long-term mean-Recall (@50) improves dramatically by 21.9%. Code is available at https://github.com/ZhuXMMM/OOTSM.
- Abstract(参考訳): シーングラフは、シーン内のオブジェクトとその関係を構造化した表現である。
SGA(Scene Graph Precipation)は、ビデオクリップから将来のシーングラフを予測することで、インテリジェントな監視や人間と機械のコラボレーションなどのアプリケーションを可能にする。
既存のSGAアプローチは主に視覚的手がかりを利用しており、しばしば貴重なコモンセンス知識を統合するのに苦労しているため、長期的な予測の堅牢性を制限する。
このような常識的知識を明示的に活用するために,シーングラフのオブジェクト,概念,関係をよりよく理解するための新しいアプローチを提案する。
まず、シーングラフをシーングラフのシーケンスに変換するためにシーングラフキャプチャーモデルを使用し、次に、純粋なテキストベースのモデルを使用して将来のフレームにおけるシーングラフを予測する。
この作業は第2ステップに重点を置いており、言語シーングラフ予測(LSGA)と呼んでおり、ここで議論されているSGAの使用以外にも独立した関心を持つべきだと考えています。
LSGAでは、オブジェクト指向2段階法 (OOTSM) を導入し、Large Language Model (LLM) がオブジェクトの出現と消失を予測し、人間とオブジェクトの関係を詳細に生成する。
我々はOOTSMを2つの設定で評価するための広範囲な実験を行った。
LSGAでは、Action Genomeアノテーションから構築したベンチマークを用いて、ゼロショットAPI(GPT-4o、GPT-4o-mini、DeepSeek-V3)に対して、微調整したオープンソースLPMを評価した。
SGAでは、OOTSMとSTTran++を組み合わせることで、私たちの実験では、最先端のパフォーマンスを効果的に証明しています。
コードはhttps://github.com/ZhuXMMM/OOTSMで入手できる。
関連論文リスト
- Open World Scene Graph Generation using Vision Language Models [7.024230124913843]
SGG(Scene-Graph Generation)は、画像中の物体を認識し、その正当な対関係を蒸留する。
オープンワールドSGG(Open-World SGG)は、視覚言語モデル(VLM)の事前訓練された知識に直接アクセスする、トレーニング不要で、効率的で、モデルに依存しないフレームワークである。
提案手法は,マルチモーダルプロンプト,埋め込みアライメント,および軽量なペアリファインメント戦略を組み合わせることで,未知のオブジェクト語彙や関係集合に対する推論を可能にする。
論文 参考訳(メタデータ) (2025-06-09T19:59:05Z) - Synthetic Visual Genome [88.00433979509218]
本稿では,高品質な高次グラフを大規模に構築できる密接な注釈付き関係を持つ命令設計法であるROBINを紹介する。
我々のデータセットは合計146K画像と2.6Mオブジェクトの5.6M関係を含んでいる。
ROBIN-3Bモデルは300万件未満のインスタンスでトレーニングされているにもかかわらず、関係理解ベンチマークで3億件以上のインスタンスでトレーニングされた類似サイズのモデルを上回っている。
論文 参考訳(メタデータ) (2025-06-09T11:09:10Z) - LLM Meets Scene Graph: Can Large Language Models Understand and Generate Scene Graphs? A Benchmark and Empirical Study [12.90392791734461]
大規模言語モデル(LLM)は、組み込みAI、ロボティクス、その他の現実世界のタスクに応用を拡大するための道を開いた。
最近の研究は、シーン内のエンティティ、属性、およびそれらの関係をエンコードする構造化された表現であるシーングラフを活用している。
テキストシーングラフ(TSG)ベンチ(Text-Scene Graph)は,LLMのシーングラフ理解能力を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-05-26T04:45:12Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - SAMJAM: Zero-Shot Video Scene Graph Generation for Egocentric Kitchen Videos [93.29815497662877]
VidSGGの現在のモデルはシーングラフを作成するために広範囲なトレーニングを必要とする。
本稿では,SAM2の時間追跡とGeminiのセマンティック理解を組み合わせたゼロショットパイプラインSAMJAMを提案する。
我々は、SAMJAMが、EPIC-KITCHENSとEPIC-KITCHENS-100データセットの平均リコールにおいて、Geminiを平均8.33%上回っていることを実証的に示す。
論文 参考訳(メタデータ) (2025-04-10T15:43:10Z) - Location-Free Scene Graph Generation [45.366540803729386]
シーングラフ生成(SGG)は視覚的理解タスクであり、シーンをエンティティのグラフとして記述し、互いに関連付けることを目的としている。
既存の作業は、バウンディングボックスやセグメンテーションマスクといった形で位置ラベルに依存しており、アノテーションのコストが増加し、データセットの拡張が制限されている。
我々は、この依存関係を破り、位置のないシーングラフ生成(LF-SGG)を導入する。
本課題は, 空間的局所化を明示的に計算することなく, 実体のインスタンスと関係性を予測することを目的とする。
論文 参考訳(メタデータ) (2023-03-20T08:57:45Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。