論文の概要: REACT: Real-time Efficiency and Accuracy Compromise for Tradeoffs in Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2405.16116v2
- Date: Sat, 30 Nov 2024 07:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 20:22:58.118340
- Title: REACT: Real-time Efficiency and Accuracy Compromise for Tradeoffs in Scene Graph Generation
- Title(参考訳): REACT:シーングラフ生成におけるトレードオフのリアルタイム効率と精度比較
- Authors: Maëlic Neau, Paulo E. Santos, Anne-Gwenn Bosser, Cédric Buche,
- Abstract要約: SGG(Scene Graph Generation)は、画像内のオブジェクト間の視覚的関係をグラフ構造としてエンコードする。
現在の手法では,(1)関係予測の精度の向上,(2)対象検出の精度の向上,(3)3つの目標を同時にバランスさせることを目標とせず,遅延の低減に重点を置いている。
提案手法であるREACTモデルは,既存のSGGモデルの中で最も高い推論速度を実現し,関係予測性能を犠牲にすることなくオブジェクト検出精度を向上させる。
- 参考スコア(独自算出の注目度): 1.3936983888175871
- License:
- Abstract: Scene Graph Generation (SGG) is a task that encodes visual relationships between objects in images as graph structures. SGG shows significant promise as a foundational component for downstream tasks, such as reasoning for embodied agents. To enable real-time applications, SGG must address the trade-off between performance and inference speed. However, current methods tend to focus on one of the following: (1) improving relation prediction accuracy, (2) enhancing object detection accuracy, or (3) reducing latency, without aiming to balance all three objectives simultaneously. To address this limitation, we propose a novel architecture, inference method, and relation prediction model. Our proposed solution, the REACT model, achieves the highest inference speed among existing SGG models, improving object detection accuracy without sacrificing relation prediction performance. Compared to state-of-the-art approaches, REACT is 2.7 times faster (with a latency of 23 ms) and improves object detection accuracy by 58.51%. Furthermore, our proposal significantly reduces model size, with an average of 5.5x fewer parameters. Code is available at https://github.com/Maelic/SGG-Benchmark
- Abstract(参考訳): SGG(Scene Graph Generation)は、画像内のオブジェクト間の視覚的関係をグラフ構造としてエンコードするタスクである。
SGGは、エンボディエージェントの推論など、下流タスクの基本的なコンポーネントとして重要な可能性を示している。
リアルタイムアプリケーションを実現するためには、SGGはパフォーマンスと推論速度のトレードオフに対処する必要がある。
しかし,現在の手法では,(1)関係予測精度の向上,(2)対象検出精度の向上,(3)3つの目標を同時にバランスさせることを目的とせず,遅延を低減することに集中する傾向にある。
この制限に対処するために,新しいアーキテクチャ,推論手法,関係予測モデルを提案する。
提案手法であるREACTモデルは,既存のSGGモデルの中で最も高い推論速度を実現し,関係予測性能を犠牲にすることなくオブジェクト検出精度を向上させる。
最先端のアプローチと比較して、REACTは2.7倍(レイテンシは23ms)で、オブジェクト検出の精度は58.51%向上している。
さらに,提案手法は平均5.5倍のパラメータでモデルサイズを大幅に削減する。
コードはhttps://github.com/Maelic/SGG-Benchmarkで入手できる。
関連論文リスト
- Scene Graph Generation Strategy with Co-occurrence Knowledge and Learnable Term Frequency [3.351553095054309]
シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をグラフ構造として表現する。
これまでの研究は、SGG生成時の物体の共起を反映しなかった。
本稿では、オブジェクト間の共起知識と学習可能な用語の周波数逆文書頻度を反映したCooKを提案する。
論文 参考訳(メタデータ) (2024-05-21T09:56:48Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Memory-Efficient Graph Convolutional Networks for Object Classification
and Detection with Event Cameras [2.3311605203774395]
グラフ畳み込みネットワーク(GCN)は、イベントデータを解析するための有望なアプローチである。
本稿では,満足度の高い結果と比較的低いモデル複雑性を達成するために,両要因を共に検討する。
その結果,特徴抽出モジュールのパラメータ数を450倍に減らし,データ表現のサイズを4.5倍に減らした。
論文 参考訳(メタデータ) (2023-07-26T11:44:44Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Rethinking Voxelization and Classification for 3D Object Detection [68.8204255655161]
LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。
本稿では,高速な動的ボキセラライザを実装することにより,ネットワークの推論速度と精度を同時に向上するソリューションを提案する。
さらに,予測対象を分類し,偽検出対象をフィルタリングする軽量検出サブヘッドモデルを提案する。
論文 参考訳(メタデータ) (2023-01-10T16:22:04Z) - A Multi-task Joint Framework for Real-time Person Search [21.11138392681009]
MJF (Multi-task Joint Framework for Real-time Person Search) を提案する。
人検出モジュールとして,人物データセットをトレーニングしたYOLOv5-GSモデルを提案する。
特徴抽出モジュールでは、人数に応じて異なるネットワークを選択することができるモデル適応アーキテクチャ(MAA)を設計する。
論文 参考訳(メタデータ) (2020-12-11T15:21:15Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z) - A Systematic Evaluation of Object Detection Networks for Scientific
Plots [17.882932963813985]
PlotQAデータセット上で、様々なSOTAオブジェクト検出ネットワークの精度をトレーニングし比較する。
0.5の標準IOU設定では、ほとんどのネットワークはプロット内の比較的単純な物体を検出する場合、mAPスコアが80%以上である。
しかし、パフォーマンスは0.9のより厳格なIOUで評価されると大幅に低下し、最高のモデルでmAPは35.70%となった。
論文 参考訳(メタデータ) (2020-07-05T05:30:53Z) - GPS-Net: Graph Property Sensing Network for Scene Graph Generation [91.60326359082408]
シーングラフ生成(SGG)は、画像内のオブジェクトとそれらのペア関係を検出することを目的としている。
GPS-Netは、エッジ方向情報、ノード間の優先度の差、長期にわたる関係の分布という、SGGの3つの特性を網羅している。
GPS-Netは、VG、OI、VRDの3つの一般的なデータベース上での最先端のパフォーマンスを、さまざまな設定とメトリクスで大幅に向上させる。
論文 参考訳(メタデータ) (2020-03-29T07:22:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。