論文の概要: Real-Time Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2405.16116v1
- Date: Sat, 25 May 2024 08:06:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 01:00:23.537327
- Title: Real-Time Scene Graph Generation
- Title(参考訳): リアルタイムシーングラフ生成
- Authors: Maëlic Neau, Paulo E. Santos, Karl Sammut, Anne-Gwenn Bosser, Cédric Buche,
- Abstract要約: シーングラフ生成(SGG)は、画像内のエンティティ間の意味関係をグラフ表現として抽出することができる。
本稿では,オブジェクト検出バックボーンとしてYOLOV8を用いたリアルタイムSGGアプローチの簡易かつ効果的な実装を提案する。
我々の実装は、そのタスクに対して、精度を損なうことなく48以上のFPSを初めて獲得し、他の軽量なアプローチよりも優れている。
- 参考スコア(独自算出の注目度): 1.2990666399718034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene Graph Generation (SGG) can extract abstract semantic relations between entities in images as graph representations. This task holds strong promises for other downstream tasks such as the embodied cognition of an autonomous agent. However, to power such applications, SGG needs to solve the gap of real-time latency. In this work, we propose to investigate the bottlenecks of current approaches for real-time constraint applications. Then, we propose a simple yet effective implementation of a real-time SGG approach using YOLOV8 as an object detection backbone. Our implementation is the first to obtain more than 48 FPS for the task with no loss of accuracy, successfully outperforming any other lightweight approaches. Our code is freely available at https://github.com/Maelic/SGG-Benchmark.
- Abstract(参考訳): シーングラフ生成(SGG)は、画像内のエンティティ間の抽象的な意味関係をグラフ表現として抽出することができる。
このタスクは、自律エージェントの認識の具体化など、他の下流タスクに対する強い約束を持っている。
しかし、そのようなアプリケーションを動かすためには、SGGはリアルタイムレイテンシのギャップを解決する必要がある。
本研究では,リアルタイム制約アプリケーションに対する現在のアプローチのボトルネックについて検討する。
そこで本研究では,オブジェクト検出バックボーンとしてYOLOV8を用いて,リアルタイムSGGアプローチの簡易かつ効果的な実装を提案する。
我々の実装は、そのタスクに対して、精度を損なうことなく48以上のFPSを初めて獲得し、他の軽量なアプローチよりも優れている。
私たちのコードはhttps://github.com/Maelic/SGG-Benchmark.comで無料で利用可能です。
関連論文リスト
- Scene Graph Generation Strategy with Co-occurrence Knowledge and Learnable Term Frequency [3.351553095054309]
シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をグラフ構造として表現する。
これまでの研究は、SGG生成時の物体の共起を反映しなかった。
本稿では、オブジェクト間の共起知識と学習可能な用語の周波数逆文書頻度を反映したCooKを提案する。
論文 参考訳(メタデータ) (2024-05-21T09:56:48Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Memory-Efficient Graph Convolutional Networks for Object Classification
and Detection with Event Cameras [2.3311605203774395]
グラフ畳み込みネットワーク(GCN)は、イベントデータを解析するための有望なアプローチである。
本稿では,満足度の高い結果と比較的低いモデル複雑性を達成するために,両要因を共に検討する。
その結果,特徴抽出モジュールのパラメータ数を450倍に減らし,データ表現のサイズを4.5倍に減らした。
論文 参考訳(メタデータ) (2023-07-26T11:44:44Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Rethinking Voxelization and Classification for 3D Object Detection [68.8204255655161]
LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。
本稿では,高速な動的ボキセラライザを実装することにより,ネットワークの推論速度と精度を同時に向上するソリューションを提案する。
さらに,予測対象を分類し,偽検出対象をフィルタリングする軽量検出サブヘッドモデルを提案する。
論文 参考訳(メタデータ) (2023-01-10T16:22:04Z) - A Multi-task Joint Framework for Real-time Person Search [21.11138392681009]
MJF (Multi-task Joint Framework for Real-time Person Search) を提案する。
人検出モジュールとして,人物データセットをトレーニングしたYOLOv5-GSモデルを提案する。
特徴抽出モジュールでは、人数に応じて異なるネットワークを選択することができるモデル適応アーキテクチャ(MAA)を設計する。
論文 参考訳(メタデータ) (2020-12-11T15:21:15Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z) - A Systematic Evaluation of Object Detection Networks for Scientific
Plots [17.882932963813985]
PlotQAデータセット上で、様々なSOTAオブジェクト検出ネットワークの精度をトレーニングし比較する。
0.5の標準IOU設定では、ほとんどのネットワークはプロット内の比較的単純な物体を検出する場合、mAPスコアが80%以上である。
しかし、パフォーマンスは0.9のより厳格なIOUで評価されると大幅に低下し、最高のモデルでmAPは35.70%となった。
論文 参考訳(メタデータ) (2020-07-05T05:30:53Z) - GPS-Net: Graph Property Sensing Network for Scene Graph Generation [91.60326359082408]
シーングラフ生成(SGG)は、画像内のオブジェクトとそれらのペア関係を検出することを目的としている。
GPS-Netは、エッジ方向情報、ノード間の優先度の差、長期にわたる関係の分布という、SGGの3つの特性を網羅している。
GPS-Netは、VG、OI、VRDの3つの一般的なデータベース上での最先端のパフォーマンスを、さまざまな設定とメトリクスで大幅に向上させる。
論文 参考訳(メタデータ) (2020-03-29T07:22:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。