Fugu-MT 論文翻訳(概要): Real-Time Scene Graph Generation

論文の概要: Real-Time Scene Graph Generation

arxiv url: http://arxiv.org/abs/2405.16116v1
Date: Sat, 25 May 2024 08:06:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 01:00:23.537327
Title: Real-Time Scene Graph Generation
Title（参考訳）: リアルタイムシーングラフ生成
Authors: Maëlic Neau, Paulo E. Santos, Karl Sammut, Anne-Gwenn Bosser, Cédric Buche,
Abstract要約: シーングラフ生成(SGG)は、画像内のエンティティ間の意味関係をグラフ表現として抽出することができる。本稿では,オブジェクト検出バックボーンとしてYOLOV8を用いたリアルタイムSGGアプローチの簡易かつ効果的な実装を提案する。我々の実装は、そのタスクに対して、精度を損なうことなく48以上のFPSを初めて獲得し、他の軽量なアプローチよりも優れている。
参考スコア（独自算出の注目度）: 1.2990666399718034
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scene Graph Generation (SGG) can extract abstract semantic relations between entities in images as graph representations. This task holds strong promises for other downstream tasks such as the embodied cognition of an autonomous agent. However, to power such applications, SGG needs to solve the gap of real-time latency. In this work, we propose to investigate the bottlenecks of current approaches for real-time constraint applications. Then, we propose a simple yet effective implementation of a real-time SGG approach using YOLOV8 as an object detection backbone. Our implementation is the first to obtain more than 48 FPS for the task with no loss of accuracy, successfully outperforming any other lightweight approaches. Our code is freely available at https://github.com/Maelic/SGG-Benchmark.
Abstract（参考訳）: シーングラフ生成(SGG)は、画像内のエンティティ間の抽象的な意味関係をグラフ表現として抽出することができる。このタスクは、自律エージェントの認識の具体化など、他の下流タスクに対する強い約束を持っている。しかし、そのようなアプリケーションを動かすためには、SGGはリアルタイムレイテンシのギャップを解決する必要がある。本研究では,リアルタイム制約アプリケーションに対する現在のアプローチのボトルネックについて検討する。そこで本研究では,オブジェクト検出バックボーンとしてYOLOV8を用いて,リアルタイムSGGアプローチの簡易かつ効果的な実装を提案する。我々の実装は、そのタスクに対して、精度を損なうことなく48以上のFPSを初めて獲得し、他の軽量なアプローチよりも優れている。私たちのコードはhttps://github.com/Maelic/SGG-Benchmark.comで無料で利用可能です。

関連論文リスト

Event-based Graph Representation with Spatial and Motion Vectors for Asynchronous Object Detection [20.537672896807063]
イベントベースのセンサは、高時間分解能と不規則レイテンシを提供する。このデータを高密度テンソルに変換することで、標準的なニューラルネットワークでの使用は、これらの固有の利点を減らします。本稿では,空間構造と時間的変化をよりよく捉えるために,新しい多面的表現を提案する。
論文参考訳（メタデータ） (2025-07-20T23:02:23Z)
TESGNN: Temporal Equivariant Scene Graph Neural Networks for Efficient and Robust Multi-View 3D Scene Understanding [8.32401190051443]
本稿では,3次元点群からセマンティックなシーングラフを生成するEquivariant Scene Graph Neural Network (ESGNN) の実装について述べる。我々の組み合わせアーキテクチャは、時間等変Scene Graph Neural Network (TESGNN) と呼ばれ、シーン推定精度において既存の最先端手法を超えるだけでなく、より高速な収束を実現する。
論文参考訳（メタデータ） (2024-11-15T15:39:04Z)
Scene Graph Generation Strategy with Co-occurrence Knowledge and Learnable Term Frequency [3.351553095054309]
シーングラフ生成(SGG)は、画像内のオブジェクト間の関係をグラフ構造として表現する。これまでの研究は、SGG生成時の物体の共起を反映しなかった。本稿では、オブジェクト間の共起知識と学習可能な用語の周波数逆文書頻度を反映したCooKを提案する。
論文参考訳（メタデータ） (2024-05-21T09:56:48Z)
HiKER-SGG: Hierarchical Knowledge Enhanced Robust Scene Graph Generation [13.929906773382752]
視覚データに対する推論を可能にする一般的なアプローチとして、Scene Graph Generation (SGG)がある。そこで本稿では,視覚ゲノムデータセット上でのプロシージャ的に生成された気象汚染やその他の変換を含む新しいSGGベンチマークを提案する。また,HKER-SGGは劣化した画像に対してゼロショット方式で優れた性能を示すだけでなく,非破壊なSGGタスクにおける最先端の手法よりも優れた性能を示すことを示す。
論文参考訳（メタデータ） (2024-03-18T17:59:10Z)
S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠であるこれまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-22T11:40:49Z)
Memory-Efficient Graph Convolutional Networks for Object Classification and Detection with Event Cameras [2.3311605203774395]
グラフ畳み込みネットワーク(GCN)は、イベントデータを解析するための有望なアプローチである。本稿では,満足度の高い結果と比較的低いモデル複雑性を達成するために,両要因を共に検討する。その結果,特徴抽出モジュールのパラメータ数を450倍に減らし,データ表現のサイズを4.5倍に減らした。
論文参考訳（メタデータ） (2023-07-26T11:44:44Z)
Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文参考訳（メタデータ） (2023-06-09T06:02:01Z)
Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient Scene Graph Generation [0.7851536646859476]
本稿では,関連性の生成を優先するSGG(Efficient Scene Graph Generation)の課題を紹介する。我々は、人気のあるVisual Genomeデータセットのアノテーションに基づいて、新しいデータセットVG150をキュレートする。我々は、このデータセットが通常SGGで使用されるものよりも高品質で多様なアノテーションを含んでいることを示す一連の実験を通して示す。
論文参考訳（メタデータ） (2023-05-30T00:55:49Z)
PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。 3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。 PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文参考訳（メタデータ） (2023-04-03T21:14:59Z)
Learnable Graph Matching: A Practical Paradigm for Data Association [74.28753343714858]
これらの問題に対処するための一般的な学習可能なグラフマッチング法を提案する。提案手法は,複数のMOTデータセット上での最先端性能を実現する。画像マッチングでは,一般的な屋内データセットであるScanNetで最先端の手法より優れている。
論文参考訳（メタデータ） (2023-03-27T17:39:00Z)
Location-Free Scene Graph Generation [45.366540803729386]
シーングラフ生成(SGG)は視覚的理解タスクであり、シーンをエンティティのグラフとして記述し、互いに関連付けることを目的としている。既存の作業は、バウンディングボックスやセグメンテーションマスクといった形で位置ラベルに依存しており、アノテーションのコストが増加し、データセットの拡張が制限されている。我々は、この依存関係を破り、位置のないシーングラフ生成(LF-SGG)を導入する。本課題は, 空間的局所化を明示的に計算することなく, 実体のインスタンスと関係性を予測することを目的とする。
論文参考訳（メタデータ） (2023-03-20T08:57:45Z)
Rethinking Voxelization and Classification for 3D Object Detection [68.8204255655161]
LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。本稿では,高速な動的ボキセラライザを実装することにより,ネットワークの推論速度と精度を同時に向上するソリューションを提案する。さらに,予測対象を分類し,偽検出対象をフィルタリングする軽量検出サブヘッドモデルを提案する。
論文参考訳（メタデータ） (2023-01-10T16:22:04Z)
Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文参考訳（メタデータ） (2022-09-20T14:41:37Z)
End-to-end video instance segmentation via spatial-temporal graph neural networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2022-03-07T05:38:08Z)
Neural Graph Matching for Pre-training Graph Neural Networks [72.32801428070749]
グラフニューラルネットワーク(GNN)は、構造データのモデリングにおいて強力な能力を示している。 GMPTと呼ばれる新しいグラフマッチングベースのGNN事前学習フレームワークを提案する。提案手法は,完全自己指導型プレトレーニングと粗粒型プレトレーニングに適用できる。
論文参考訳（メタデータ） (2022-03-03T09:53:53Z)
Learnable Graph Matching: Incorporating Graph Partitioning with Deep Feature Learning for Multiple Object Tracking [58.30147362745852]
フレーム間のデータアソシエーションは、Multiple Object Tracking(MOT)タスクの中核にある。既存の手法は、主にトラックレットとフレーム内検出の間のコンテキスト情報を無視する。そこで本研究では,学習可能なグラフマッチング手法を提案する。
論文参考訳（メタデータ） (2021-03-30T08:58:45Z)
A Multi-task Joint Framework for Real-time Person Search [21.11138392681009]
MJF (Multi-task Joint Framework for Real-time Person Search) を提案する。人検出モジュールとして,人物データセットをトレーニングしたYOLOv5-GSモデルを提案する。特徴抽出モジュールでは、人数に応じて異なるネットワークを選択することができるモデル適応アーキテクチャ(MAA)を設計する。
論文参考訳（メタデータ） (2020-12-11T15:21:15Z)
DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文参考訳（メタデータ） (2020-10-02T13:59:05Z)
Representative Graph Neural Network [113.67254049938629]
いくつかの代表的特徴を動的にサンプリングするために、代表グラフ層を提示する。すべての位置からメッセージを伝搬する代わりに、RepGraphレイヤは1つのノードの応答を数個の代表ノードで計算します。
論文参考訳（メタデータ） (2020-08-12T09:46:52Z)
A Systematic Evaluation of Object Detection Networks for Scientific Plots [17.882932963813985]
PlotQAデータセット上で、様々なSOTAオブジェクト検出ネットワークの精度をトレーニングし比較する。 0.5の標準IOU設定では、ほとんどのネットワークはプロット内の比較的単純な物体を検出する場合、mAPスコアが80%以上である。しかし、パフォーマンスは0.9のより厳格なIOUで評価されると大幅に低下し、最高のモデルでmAPは35.70%となった。
論文参考訳（メタデータ） (2020-07-05T05:30:53Z)
GPS-Net: Graph Property Sensing Network for Scene Graph Generation [91.60326359082408]
シーングラフ生成(SGG)は、画像内のオブジェクトとそれらのペア関係を検出することを目的としている。 GPS-Netは、エッジ方向情報、ノード間の優先度の差、長期にわたる関係の分布という、SGGの3つの特性を網羅している。 GPS-Netは、VG、OI、VRDの3つの一般的なデータベース上での最先端のパフォーマンスを、さまざまな設定とメトリクスで大幅に向上させる。
論文参考訳（メタデータ） (2020-03-29T07:22:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。