論文の概要: Real-Time Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2405.16116v1
- Date: Sat, 25 May 2024 08:06:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 01:00:23.537327
- Title: Real-Time Scene Graph Generation
- Title(参考訳): リアルタイムシーングラフ生成
- Authors: Maëlic Neau, Paulo E. Santos, Karl Sammut, Anne-Gwenn Bosser, Cédric Buche,
- Abstract要約: シーングラフ生成(SGG)は、画像内のエンティティ間の意味関係をグラフ表現として抽出することができる。
本稿では,オブジェクト検出バックボーンとしてYOLOV8を用いたリアルタイムSGGアプローチの簡易かつ効果的な実装を提案する。
我々の実装は、そのタスクに対して、精度を損なうことなく48以上のFPSを初めて獲得し、他の軽量なアプローチよりも優れている。
- 参考スコア(独自算出の注目度): 1.2990666399718034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene Graph Generation (SGG) can extract abstract semantic relations between entities in images as graph representations. This task holds strong promises for other downstream tasks such as the embodied cognition of an autonomous agent. However, to power such applications, SGG needs to solve the gap of real-time latency. In this work, we propose to investigate the bottlenecks of current approaches for real-time constraint applications. Then, we propose a simple yet effective implementation of a real-time SGG approach using YOLOV8 as an object detection backbone. Our implementation is the first to obtain more than 48 FPS for the task with no loss of accuracy, successfully outperforming any other lightweight approaches. Our code is freely available at https://github.com/Maelic/SGG-Benchmark.
- Abstract(参考訳): シーングラフ生成(SGG)は、画像内のエンティティ間の抽象的な意味関係をグラフ表現として抽出することができる。
このタスクは、自律エージェントの認識の具体化など、他の下流タスクに対する強い約束を持っている。
しかし、そのようなアプリケーションを動かすためには、SGGはリアルタイムレイテンシのギャップを解決する必要がある。
本研究では,リアルタイム制約アプリケーションに対する現在のアプローチのボトルネックについて検討する。
そこで本研究では,オブジェクト検出バックボーンとしてYOLOV8を用いて,リアルタイムSGGアプローチの簡易かつ効果的な実装を提案する。
我々の実装は、そのタスクに対して、精度を損なうことなく48以上のFPSを初めて獲得し、他の軽量なアプローチよりも優れている。
私たちのコードはhttps://github.com/Maelic/SGG-Benchmark.comで無料で利用可能です。
関連論文リスト
- HiKER-SGG: Hierarchical Knowledge Enhanced Robust Scene Graph Generation [13.929906773382752]
視覚データに対する推論を可能にする一般的なアプローチとして、Scene Graph Generation (SGG)がある。
そこで本稿では,視覚ゲノムデータセット上でのプロシージャ的に生成された気象汚染やその他の変換を含む新しいSGGベンチマークを提案する。
また,HKER-SGGは劣化した画像に対してゼロショット方式で優れた性能を示すだけでなく,非破壊なSGGタスクにおける最先端の手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-18T17:59:10Z) - Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient
Scene Graph Generation [0.7851536646859476]
本稿では,関連性の生成を優先するSGG(Efficient Scene Graph Generation)の課題を紹介する。
我々は、人気のあるVisual Genomeデータセットのアノテーションに基づいて、新しいデータセットVG150をキュレートする。
我々は、このデータセットが通常SGGで使用されるものよりも高品質で多様なアノテーションを含んでいることを示す一連の実験を通して示す。
論文 参考訳(メタデータ) (2023-05-30T00:55:49Z) - Learnable Graph Matching: A Practical Paradigm for Data Association [74.28753343714858]
これらの問題に対処するための一般的な学習可能なグラフマッチング法を提案する。
提案手法は,複数のMOTデータセット上での最先端性能を実現する。
画像マッチングでは,一般的な屋内データセットであるScanNetで最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-03-27T17:39:00Z) - Location-Free Scene Graph Generation [43.68679886516574]
シーングラフ生成(SGG)は、困難な視覚的理解課題である。
シーンにおけるエンティティの検出と、それら間の関係を結合する。
ローカライズラベルの必要性は、アノテーションのコストを大幅に増加させ、より多くのシーングラフデータセットの作成を妨げます。
位置自由なシーングラフ生成を提案することにより,境界ボックスラベルへのシーングラフの依存を断ち切ることを提案する。
論文 参考訳(メタデータ) (2023-03-20T08:57:45Z) - Pushing the Limits of Asynchronous Graph-based Object Detection with
Event Cameras [62.70541164894224]
低計算を維持しながら、そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択をいくつか導入する。
我々の手法は、密度の高いグラフニューラルネットワークよりも3.7倍高速に動作し、前方通過はわずか8.4msである。
論文 参考訳(メタデータ) (2022-11-22T15:14:20Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - YOLOV: Making Still Image Object Detectors Great at Video Object
Detection [23.039968987772543]
映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。
この研究は、問題に対処するための単純だが効果的な戦略を提案する。
我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
論文 参考訳(メタデータ) (2022-08-20T14:12:06Z) - End-to-end video instance segmentation via spatial-temporal graph neural
networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。
上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:38:08Z) - Neural Graph Matching for Pre-training Graph Neural Networks [72.32801428070749]
グラフニューラルネットワーク(GNN)は、構造データのモデリングにおいて強力な能力を示している。
GMPTと呼ばれる新しいグラフマッチングベースのGNN事前学習フレームワークを提案する。
提案手法は,完全自己指導型プレトレーニングと粗粒型プレトレーニングに適用できる。
論文 参考訳(メタデータ) (2022-03-03T09:53:53Z) - Learnable Graph Matching: Incorporating Graph Partitioning with Deep
Feature Learning for Multiple Object Tracking [58.30147362745852]
フレーム間のデータアソシエーションは、Multiple Object Tracking(MOT)タスクの中核にある。
既存の手法は、主にトラックレットとフレーム内検出の間のコンテキスト情報を無視する。
そこで本研究では,学習可能なグラフマッチング手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:58:45Z) - Representative Graph Neural Network [113.67254049938629]
いくつかの代表的特徴を動的にサンプリングするために、代表グラフ層を提示する。
すべての位置からメッセージを伝搬する代わりに、RepGraphレイヤは1つのノードの応答を数個の代表ノードで計算します。
論文 参考訳(メタデータ) (2020-08-12T09:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。