論文の概要: RS-Net: Context-Aware Relation Scoring for Dynamic Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2511.08651v1
- Date: Thu, 13 Nov 2025 01:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.176045
- Title: RS-Net: Context-Aware Relation Scoring for Dynamic Scene Graph Generation
- Title(参考訳): RS-Net:動的シーングラフ生成のためのコンテキストアウェアリレーションスコーリング
- Authors: Hae-Won Jo, Yeong-Jun Cho,
- Abstract要約: 動的シーングラフ生成(DSGG)は、ビデオの時間とともにオブジェクトの関係がどのように進化するかをモデル化する。
既存の手法は、注釈付きオブジェクトペアのみを訓練し、非関連ペアのガイダンスを欠いているため、推論中に意味のある関係を識別することは困難である。
本研究では,空間的相互作用と長距離時間的コンテキストの両方を用いて,オブジェクトペアの文脈的重要性を評価するモジュール型フレームワークであるRelation Scoring Network (RS-Net)を提案する。
- 参考スコア(独自算出の注目度): 1.7188280334580195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic Scene Graph Generation (DSGG) models how object relations evolve over time in videos. However, existing methods are trained only on annotated object pairs and lack guidance for non-related pairs, making it difficult to identify meaningful relations during inference. In this paper, we propose Relation Scoring Network (RS-Net), a modular framework that scores the contextual importance of object pairs using both spatial interactions and long-range temporal context. RS-Net consists of a spatial context encoder with learnable context tokens and a temporal encoder that aggregates video-level information. The resulting relation scores are integrated into a unified triplet scoring mechanism to enhance relation prediction. RS-Net can be easily integrated into existing DSGG models without architectural changes. Experiments on the Action Genome dataset show that RS-Net consistently improves both Recall and Precision across diverse baselines, with notable gains in mean Recall, highlighting its ability to address the long-tailed distribution of relations. Despite the increased number of parameters, RS-Net maintains competitive efficiency, achieving superior performance over state-of-the-art methods.
- Abstract(参考訳): 動的シーングラフ生成(DSGG)は、ビデオの時間とともにオブジェクトの関係がどのように進化するかをモデル化する。
しかし、既存の手法は注釈付きオブジェクトペアのみに基づいて訓練されており、非関連ペアのガイダンスが欠如しているため、推論中に意味のある関係を識別することは困難である。
本稿では,空間的相互作用と長距離時間的コンテキストの両方を用いて,オブジェクトペアの文脈的重要性を評価するモジュール型フレームワークであるRelation Scoring Network (RS-Net)を提案する。
RS-Netは、学習可能なコンテキストトークンを持つ空間コンテキストエンコーダと、ビデオレベルの情報を集約する時間エンコーダで構成される。
得られた関係スコアは、関係予測を強化するために統合された三重項スコア機構に統合される。
RS-Netはアーキテクチャの変更なしに既存のDSGGモデルに容易に統合できる。
Action Genomeデータセットの実験によると、RS-Netはさまざまなベースラインにわたってリコールと精度を継続的に改善し、平均リコールで顕著な利益を上げ、リレーションの長い尾の分布に対処する能力を強調している。
パラメータの増大にもかかわらず、RS-Netは競争効率を維持し、最先端の手法よりも優れた性能を実現している。
関連論文リスト
- SEP-GCN: Leveraging Similar Edge Pairs with Temporal and Spatial Contexts for Location-Based Recommender Systems [0.0]
SEP-GCNは、文脈的に類似した相互作用エッジのペアから学習する新しいグラフベースのレコメンデーションフレームワークである。
SEP-GCNは、類似の時間的ウィンドウや地理的近接で発生するエッジペアを識別することにより、コンテキスト的類似性リンクでユーザ-itemグラフを拡張する。
ベンチマークデータセットの実験では、SEP-GCNは予測精度とロバスト性の両方において、強いベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-19T03:48:30Z) - RelGNN: Composite Message Passing for Relational Deep Learning [56.48834369525997]
RelGNNはリレーショナルデータベースから構築されたグラフのユニークな構造特性を活用するために特別に設計された新しいGNNフレームワークである。
RelGNNは、Relbench(Fey et al., 2024)から30の多様な実世界のタスクで評価され、ほとんどのタスクで最先端のパフォーマンスを実現し、最大25%の改善を実現している。
論文 参考訳(メタデータ) (2025-02-10T18:58:40Z) - Multi-Scene Generalized Trajectory Global Graph Solver with Composite
Nodes for Multiple Object Tracking [61.69892497726235]
複合ノードメッセージパッシングネットワーク(CoNo-Link)は、超長いフレーム情報を関連付けるためのフレームワークである。
オブジェクトをノードとして扱う従来の方法に加えて、このネットワークは情報インタラクションのためのノードとしてオブジェクトトラジェクトリを革新的に扱う。
我々のモデルは、合成ノードを追加することで、より長い時間スケールでより良い予測を学習することができる。
論文 参考訳(メタデータ) (2023-12-14T14:00:30Z) - Semantic Scene Graph Generation Based on an Edge Dual Scene Graph and
Message Passing Neural Network [3.9280441311534653]
シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をキャプチャし、構造化グラフベースの表現を生成する。
既存のSGG法は、詳細な関係を正確に予測する能力に制限がある。
本稿では,エッジデュアルシーングラフ生成(EdgeSGG)と呼ばれるマルチオブジェクト関係のモデリング手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T12:36:52Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Target Adaptive Context Aggregation for Video Scene Graph Generation [36.669700084337045]
本稿では,映像シーングラフ生成(VidSGG)の課題を扱う。
複雑な低レベルエンティティ追跡から関係予測のためのコンテキストモデリングを分離することにより,この課題に対する新しい Em 検出-追跡パラダイムを提案する。
論文 参考訳(メタデータ) (2021-08-18T12:46:28Z) - Improved Representation Learning for Session-based Recommendation [0.0]
セッションベースのレコメンデーションシステムは、短期匿名セッションを用いてユーザの行動や嗜好をモデル化することで、ユーザに対して関連項目を提案する。
既存の方法はグラフニューラルネットワーク(GNN)を利用して、近隣のノードから情報を伝達し集約する。
我々は、よりリッチな表現学習を可能にする目標注意型GNNと組み合わせてトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2021-07-04T00:57:28Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。