論文の概要: DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime
- arxiv url: http://arxiv.org/abs/2603.10538v1
- Date: Wed, 11 Mar 2026 08:43:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.854164
- Title: DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime
- Title(参考訳): DSFlash: 総合的なパノラマシーングラフをリアルタイムで生成する
- Authors: Julian Lorenz, Vladyslav Kovganko, Elias Kohout, Mrunmai Phatak, Daniel Kienzle, Rainer Lienhart,
- Abstract要約: シーングラフ生成(SGG)は、画像から詳細なグラフ構造を抽出することを目的としている。
本稿では,パノラマシーングラフ生成のための低遅延モデルであるDSFlashを紹介する。
- 参考スコア(独自算出の注目度): 16.79939279536708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Graph Generation (SGG) aims to extract a detailed graph structure from an image, a representation that holds significant promise as a robust intermediate step for complex downstream tasks like reasoning for embodied agents. However, practical deployment in real-world applications - especially on resource constrained edge devices - requires speed and resource efficiency, challenges that have received limited attention in existing research. To bridge this gap, we introduce DSFlash, a low-latency model for panoptic scene graph generation designed to overcome these limitations. DSFlash can process a video stream at 56 frames per second on a standard RTX 3090 GPU, without compromising performance against existing state-of-the-art methods. Crucially, unlike prior approaches that often restrict themselves to salient relationships, DSFlash computes comprehensive scene graphs, offering richer contextual information while maintaining its superior latency. Furthermore, DSFlash is light on resources, requiring less than 24 hours to train on a single, nine-year-old GTX 1080 GPU. This accessibility makes DSFlash particularly well-suited for researchers and practitioners operating with limited computational resources, empowering them to adapt and fine-tune SGG models for specialized applications.
- Abstract(参考訳): SGG(Scene Graph Generation)は、画像から詳細なグラフ構造を抽出することを目的としている。
しかし、現実のアプリケーション、特にリソース制約のあるエッジデバイスへの実践的なデプロイにはスピードとリソース効率が必要です。
このギャップを埋めるために、これらの制限を克服するように設計されたパノプティクスシーングラフ生成のための低レイテンシモデルであるDSFlashを導入する。
DSFlashは、標準のRTX 3090 GPUで毎秒56フレームの動画ストリームを処理できるが、既存の最先端の手法に対してパフォーマンスを損なうことはない。
重要なことに、DSFlashは、しばしば適切な関係に制限される以前のアプローチとは異なり、包括的なシーングラフを計算し、優れたレイテンシを維持しながら、よりリッチなコンテキスト情報を提供する。
さらに、DSFlashはリソースに光を当てており、1つの9歳のGTX 1080 GPUでトレーニングするのに24時間もかからない。
このアクセシビリティにより、DSFlashは限られた計算資源で運用する研究者や実践者にとって特に適しており、特殊なアプリケーションに適応し、微調整のSGGモデルを実現することができる。
関連論文リスト
- SoulX-FlashHead: Oracle-guided Generation of Infinite Real-time Streaming Talking Heads [19.531644258572353]
本稿では,リアルタイム,無限長,高忠実なストリーミングビデオ生成のための統合フレームワークであるSoulX-FlashHeadを提案する。
ストリーミングシナリオにおける音声機能の不安定性に対処するために,テンポラルオーディオコンテキストキャッシュ機構を備えたストリーム対応時空間事前学習を導入する。
VividHeadは大規模で高品質なデータセットで、厳格なトレーニングをサポートするために、782時間の厳格なアライメントされた映像を格納しています。
論文 参考訳(メタデータ) (2026-02-07T08:58:16Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - LLIA -- Enabling Low-Latency Interactive Avatars: Real-Time Audio-Driven Portrait Video Generation with Diffusion Models [17.858801012726445]
拡散に基づくモデルは、その卓越した表現力のために、仮想人間世代に広く採用されている。
本稿では,これらの課題に対処するための拡散モデルに基づく,新しいオーディオ駆動型ポートレートビデオ生成フレームワークを提案する。
本モデルでは,解像度384x384,解像度512x512で最大78FPS,ビデオ生成遅延140msと215msで最大78FPSを実現している。
論文 参考訳(メタデータ) (2025-06-06T07:09:07Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Hierarchical Graph Pattern Understanding for Zero-Shot VOS [102.21052200245457]
本稿では、ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)のための新しい階層型グラフニューラルネットワーク(GNN)アーキテクチャを提案する。
構造的関係を捕捉するGNNの強い能力にインスパイアされたHGPUは、運動キュー(すなわち光の流れ)を革新的に活用し、ターゲットフレームの隣人からの高次表現を強化する。
論文 参考訳(メタデータ) (2023-12-15T04:13:21Z) - SPEED: Streaming Partition and Parallel Acceleration for Temporal
Interaction Graph Embedding [22.68416593780539]
本稿では,時間的相互作用グラフ埋め込みのためのストリームエッジ分割と並列高速化という,新たなトレーニング手法を提案する。
提案手法は,計算資源,計算時間,下流タスク性能のバランスが良好である。
7つの実世界のデータセットにまたがる実証的な検証は、トレーニング速度を最大19.29倍に向上させる可能性を実証している。
論文 参考訳(メタデータ) (2023-08-27T15:11:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。