論文の概要: REACT: Real-time Efficiency and Accuracy Compromise for Tradeoffs in Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2405.16116v2
- Date: Sat, 30 Nov 2024 07:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 20:22:58.118340
- Title: REACT: Real-time Efficiency and Accuracy Compromise for Tradeoffs in Scene Graph Generation
- Title(参考訳): REACT:シーングラフ生成におけるトレードオフのリアルタイム効率と精度比較
- Authors: Maëlic Neau, Paulo E. Santos, Anne-Gwenn Bosser, Cédric Buche,
- Abstract要約: SGG(Scene Graph Generation)は、画像内のオブジェクト間の視覚的関係をグラフ構造としてエンコードする。
現在の手法では,(1)関係予測の精度の向上,(2)対象検出の精度の向上,(3)3つの目標を同時にバランスさせることを目標とせず,遅延の低減に重点を置いている。
提案手法であるREACTモデルは,既存のSGGモデルの中で最も高い推論速度を実現し,関係予測性能を犠牲にすることなくオブジェクト検出精度を向上させる。
- 参考スコア(独自算出の注目度): 1.3936983888175871
- License:
- Abstract: Scene Graph Generation (SGG) is a task that encodes visual relationships between objects in images as graph structures. SGG shows significant promise as a foundational component for downstream tasks, such as reasoning for embodied agents. To enable real-time applications, SGG must address the trade-off between performance and inference speed. However, current methods tend to focus on one of the following: (1) improving relation prediction accuracy, (2) enhancing object detection accuracy, or (3) reducing latency, without aiming to balance all three objectives simultaneously. To address this limitation, we propose a novel architecture, inference method, and relation prediction model. Our proposed solution, the REACT model, achieves the highest inference speed among existing SGG models, improving object detection accuracy without sacrificing relation prediction performance. Compared to state-of-the-art approaches, REACT is 2.7 times faster (with a latency of 23 ms) and improves object detection accuracy by 58.51%. Furthermore, our proposal significantly reduces model size, with an average of 5.5x fewer parameters. Code is available at https://github.com/Maelic/SGG-Benchmark
- Abstract(参考訳): SGG(Scene Graph Generation)は、画像内のオブジェクト間の視覚的関係をグラフ構造としてエンコードするタスクである。
SGGは、エンボディエージェントの推論など、下流タスクの基本的なコンポーネントとして重要な可能性を示している。
リアルタイムアプリケーションを実現するためには、SGGはパフォーマンスと推論速度のトレードオフに対処する必要がある。
しかし,現在の手法では,(1)関係予測精度の向上,(2)対象検出精度の向上,(3)3つの目標を同時にバランスさせることを目的とせず,遅延を低減することに集中する傾向にある。
この制限に対処するために,新しいアーキテクチャ,推論手法,関係予測モデルを提案する。
提案手法であるREACTモデルは,既存のSGGモデルの中で最も高い推論速度を実現し,関係予測性能を犠牲にすることなくオブジェクト検出精度を向上させる。
最先端のアプローチと比較して、REACTは2.7倍(レイテンシは23ms)で、オブジェクト検出の精度は58.51%向上している。
さらに,提案手法は平均5.5倍のパラメータでモデルサイズを大幅に削減する。
コードはhttps://github.com/Maelic/SGG-Benchmarkで入手できる。
関連論文リスト
- TESGNN: Temporal Equivariant Scene Graph Neural Networks for Efficient and Robust Multi-View 3D Scene Understanding [8.32401190051443]
本稿では,3次元点群からセマンティックなシーングラフを生成するEquivariant Scene Graph Neural Network (ESGNN) の実装について述べる。
我々の組み合わせアーキテクチャは、時間等変Scene Graph Neural Network (TESGNN) と呼ばれ、シーン推定精度において既存の最先端手法を超えるだけでなく、より高速な収束を実現する。
論文 参考訳(メタデータ) (2024-11-15T15:39:04Z) - HiKER-SGG: Hierarchical Knowledge Enhanced Robust Scene Graph Generation [13.929906773382752]
視覚データに対する推論を可能にする一般的なアプローチとして、Scene Graph Generation (SGG)がある。
そこで本稿では,視覚ゲノムデータセット上でのプロシージャ的に生成された気象汚染やその他の変換を含む新しいSGGベンチマークを提案する。
また,HKER-SGGは劣化した画像に対してゼロショット方式で優れた性能を示すだけでなく,非破壊なSGGタスクにおける最先端の手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-18T17:59:10Z) - Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient
Scene Graph Generation [0.7851536646859476]
本稿では,関連性の生成を優先するSGG(Efficient Scene Graph Generation)の課題を紹介する。
我々は、人気のあるVisual Genomeデータセットのアノテーションに基づいて、新しいデータセットVG150をキュレートする。
我々は、このデータセットが通常SGGで使用されるものよりも高品質で多様なアノテーションを含んでいることを示す一連の実験を通して示す。
論文 参考訳(メタデータ) (2023-05-30T00:55:49Z) - Learnable Graph Matching: A Practical Paradigm for Data Association [74.28753343714858]
これらの問題に対処するための一般的な学習可能なグラフマッチング法を提案する。
提案手法は,複数のMOTデータセット上での最先端性能を実現する。
画像マッチングでは,一般的な屋内データセットであるScanNetで最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-03-27T17:39:00Z) - Location-Free Scene Graph Generation [45.366540803729386]
シーングラフ生成(SGG)は視覚的理解タスクであり、シーンをエンティティのグラフとして記述し、互いに関連付けることを目的としている。
既存の作業は、バウンディングボックスやセグメンテーションマスクといった形で位置ラベルに依存しており、アノテーションのコストが増加し、データセットの拡張が制限されている。
我々は、この依存関係を破り、位置のないシーングラフ生成(LF-SGG)を導入する。
本課題は, 空間的局所化を明示的に計算することなく, 実体のインスタンスと関係性を予測することを目的とする。
論文 参考訳(メタデータ) (2023-03-20T08:57:45Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - End-to-end video instance segmentation via spatial-temporal graph neural
networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。
上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:38:08Z) - Neural Graph Matching for Pre-training Graph Neural Networks [72.32801428070749]
グラフニューラルネットワーク(GNN)は、構造データのモデリングにおいて強力な能力を示している。
GMPTと呼ばれる新しいグラフマッチングベースのGNN事前学習フレームワークを提案する。
提案手法は,完全自己指導型プレトレーニングと粗粒型プレトレーニングに適用できる。
論文 参考訳(メタデータ) (2022-03-03T09:53:53Z) - Learnable Graph Matching: Incorporating Graph Partitioning with Deep
Feature Learning for Multiple Object Tracking [58.30147362745852]
フレーム間のデータアソシエーションは、Multiple Object Tracking(MOT)タスクの中核にある。
既存の手法は、主にトラックレットとフレーム内検出の間のコンテキスト情報を無視する。
そこで本研究では,学習可能なグラフマッチング手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:58:45Z) - Representative Graph Neural Network [113.67254049938629]
いくつかの代表的特徴を動的にサンプリングするために、代表グラフ層を提示する。
すべての位置からメッセージを伝搬する代わりに、RepGraphレイヤは1つのノードの応答を数個の代表ノードで計算します。
論文 参考訳(メタデータ) (2020-08-12T09:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。