論文の概要: REACT++: Efficient Cross-Attention for Real-Time Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2603.06386v1
- Date: Fri, 06 Mar 2026 15:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.085242
- Title: REACT++: Efficient Cross-Attention for Real-Time Scene Graph Generation
- Title(参考訳): REACT++: リアルタイムのシーングラフ生成のための効率的なクロスアテンション
- Authors: Maëlic Neau, Zoe Falomir,
- Abstract要約: SGG(Scene Graph Generation)は、画像内のオブジェクト間の視覚的関係をグラフ構造としてエンコードする。
リアルタイムアプリケーションを実現するためには、SGGはパフォーマンスと推論速度のトレードオフに対処する必要がある。
我々は、シーングラフ生成アーキテクチャにおけるトレードオフのための強力なリアルタイム効率と精度の競合の上に構築する。
- 参考スコア(独自算出の注目度): 0.6732076464377242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene Graph Generation (SGG) is a task that encodes visual relationships between objects in images as graph structures. SGG shows significant promise as a foundational component for downstream tasks, such as reasoning for embodied agents. To enable real-time applications, SGG must address the trade-off between performance and inference speed. However, current methods tend to focus on one of the following: (1) improving relation prediction accuracy, (2) enhancing object detection accuracy, or (3) reducing latency, without aiming to balance all three objectives simultaneously. To address this limitation, we build on the powerful Real-time Efficiency and Accuracy Compromise for Tradeoffs in Scene Graph Generation (REACT) architecture and propose REACT++, a new state-of-the-art model for real-time SGG. By leveraging efficient feature extraction and subject-to-object cross-attention within the prototype space, REACT++ balances latency and representational power. REACT++ achieves the highest inference speed among existing SGG models, improving relation prediction accuracy without sacrificing object detection performance. Compared to the previous REACT version, REACT++ is 20% faster with a gain of 10% in relation prediction accuracy on average. The code is available at https://github.com/Maelic/SGG-Benchmark.
- Abstract(参考訳): SGG(Scene Graph Generation)は、画像内のオブジェクト間の視覚的関係をグラフ構造としてエンコードするタスクである。
SGGは、エンボディエージェントの推論など、下流タスクの基本的なコンポーネントとして重要な可能性を示している。
リアルタイムアプリケーションを実現するためには、SGGはパフォーマンスと推論速度のトレードオフに対処する必要がある。
しかし,現在の手法では,(1)関係予測精度の向上,(2)対象検出精度の向上,(3)3つの目標を同時にバランスさせることを目的とせず,遅延を低減することに集中する傾向にある。
この制限に対処するために、リアルタイムグラフ生成(REACT)アーキテクチャにおけるトレードオフのための強力なリアルタイム効率と精度の競合を構築し、リアルタイムSGGのための新しい最先端モデルであるREACT++を提案する。
効率的な機能抽出とプロトタイプ空間内の対象物間のクロスアテンションを活用することで、REACT++はレイテンシと表現力のバランスをとる。
REACT++は既存のSGGモデルの中で最も高い推論速度を実現し、オブジェクト検出性能を犠牲にすることなく関係予測精度を向上させる。
以前のREACTバージョンと比較して、REACT++は20%高速で、平均して関係予測精度が10%向上した。
コードはhttps://github.com/Maelic/SGG-Benchmarkで公開されている。
関連論文リスト
- From Editor to Dense Geometry Estimator [77.21804448599009]
密度幾何予測のための拡散変換器(DiT)アーキテクチャに基づく高度な編集モデルを適用するフレームワークである textbfFE2E を紹介する。
FE2EはETH3Dデータセットで35%以上のパフォーマンス向上を実現し、100$times$データでトレーニングされたDepthAnythingシリーズを上回っている。
論文 参考訳(メタデータ) (2025-09-04T15:58:50Z) - Event-based Graph Representation with Spatial and Motion Vectors for Asynchronous Object Detection [20.537672896807063]
イベントベースのセンサは、高時間分解能と不規則レイテンシを提供する。
このデータを高密度テンソルに変換することで、標準的なニューラルネットワークでの使用は、これらの固有の利点を減らします。
本稿では,空間構造と時間的変化をよりよく捉えるために,新しい多面的表現を提案する。
論文 参考訳(メタデータ) (2025-07-20T23:02:23Z) - REACT: Real-time Efficiency and Accuracy Compromise for Tradeoffs in Scene Graph Generation [4.91726821185859]
SGG(Scene Graph Generation)は、画像内のオブジェクト間の視覚的関係をグラフ構造としてエンコードする。
リアルタイムアプリケーションを実現するためには、SGGはパフォーマンスと推論速度のトレードオフに対処する必要がある。
本稿では,Real-time Effective and Accuracy Compromise for Tradeoffs in Scene Graph Generation (REACT)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-05-25T08:06:12Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Efficient Heterogeneous Graph Learning via Random Projection [58.4138636866903]
不均一グラフニューラルネットワーク(HGNN)は、異種グラフを深層学習するための強力なツールである。
最近のプリ計算ベースのHGNNは、一時間メッセージパッシングを使用して不均一グラフを正規形テンソルに変換する。
我々はRandom Projection Heterogeneous Graph Neural Network (RpHGNN) というハイブリッド計算前HGNNを提案する。
論文 参考訳(メタデータ) (2023-10-23T01:25:44Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z) - Fully Convolutional Scene Graph Generation [30.194961716870186]
本稿では,オブジェクトと関係を同時に検出する全畳み込みシーングラフ生成(FCSGG)モデルを提案する。
FCSGGはオブジェクトをバウンディングボックス中心点としてエンコードし、リレーショナル親和性場(RAF)と呼ばれる2次元ベクトル場として関連付ける
fcsggはリコールとゼロショットリコールにおいて高い競合性を達成し、推論時間を大幅に削減した。
論文 参考訳(メタデータ) (2021-03-30T05:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。