論文の概要: TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring
- arxiv url: http://arxiv.org/abs/2508.04943v1
- Date: Thu, 07 Aug 2025 00:17:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.666629
- Title: TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring
- Title(参考訳): TRKT:時空間強化型知識伝達を用いた動的シーングラフ生成
- Authors: Zhu Xu, Ting Lei, Zhimin Li, Guan Wang, Qingchao Chen, Yuxin Peng, Yang liu,
- Abstract要約: 動的シーングラフ生成(DSGG)は、オブジェクトを検出し、それらの関係を予測することによって、各ビデオフレームのシーングラフを作成することを目的としている。
既存のWS-DSGG法は、既製の外部オブジェクト検出器に依存して、後続のDSGG訓練のための擬似ラベルを生成する。
本稿では,関係認識の動的シナリオにおいて,知識を活用して検出を強化する,時間拡張型関係認識型知識伝達(TRKT)手法を提案する。
- 参考スコア(独自算出の注目度): 43.25899008682682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic Scene Graph Generation (DSGG) aims to create a scene graph for each video frame by detecting objects and predicting their relationships. Weakly Supervised DSGG (WS-DSGG) reduces annotation workload by using an unlocalized scene graph from a single frame per video for training. Existing WS-DSGG methods depend on an off-the-shelf external object detector to generate pseudo labels for subsequent DSGG training. However, detectors trained on static, object-centric images struggle in dynamic, relation-aware scenarios required for DSGG, leading to inaccurate localization and low-confidence proposals. To address the challenges posed by external object detectors in WS-DSGG, we propose a Temporal-enhanced Relation-aware Knowledge Transferring (TRKT) method, which leverages knowledge to enhance detection in relation-aware dynamic scenarios. TRKT is built on two key components:(1)Relation-aware knowledge mining: we first employ object and relation class decoders that generate category-specific attention maps to highlight both object regions and interactive areas. Then we propose an Inter-frame Attention Augmentation strategy that exploits optical flow for neighboring frames to enhance the attention maps, making them motion-aware and robust to motion blur. This step yields relation- and motion-aware knowledge mining for WS-DSGG. (2) we introduce a Dual-stream Fusion Module that integrates category-specific attention maps into external detections to refine object localization and boost confidence scores for object proposals. Extensive experiments demonstrate that TRKT achieves state-of-the-art performance on Action Genome dataset. Our code is avaliable at https://github.com/XZPKU/TRKT.git.
- Abstract(参考訳): 動的シーングラフ生成(DSGG)は、オブジェクトを検出し、それらの関係を予測することによって、各ビデオフレームのシーングラフを作成することを目的としている。
Weakly Supervised DSGG (WS-DSGG) は、ビデオ毎の単一のフレームから非ローカライズされたシーングラフを使用することで、アノテーションのワークロードを削減する。
既存のWS-DSGG法は、既製の外部オブジェクト検出器に依存して、後続のDSGG訓練のための擬似ラベルを生成する。
しかし、静的なオブジェクト中心の画像に基づいてトレーニングされた検出器は、DSGGに必要な動的でリレーションアウェアなシナリオに苦労し、不正確なローカライゼーションと低信頼の提案につながった。
WS-DSGGにおける外部オブジェクト検出器による課題に対処するため,関係認識の動的シナリオにおいて,知識を活用して検出を強化する時間拡張型関係認識知識伝達法(TRKT)を提案する。
TRKTは2つの重要なコンポーネント上に構築されている: (1) 関係認識知識マイニング: まず、対象領域と対話領域の両方を強調するために、カテゴリ固有の注意マップを生成するオブジェクトと関係クラスデコーダを用いる。
そこで本研究では,周辺フレームの光フローを利用したフレーム間注意増強手法を提案する。
このステップは、WS-DSGGにおける関係知識と動き知識のマイニングをもたらす。
2) カテゴリ固有の注意マップを外部検出に統合したデュアルストリーム統合モジュールを導入し, オブジェクトの局所化を洗練させ, オブジェクト提案に対する信頼度を向上する。
TRKTはAction Genomeデータセット上での最先端のパフォーマンスを実現する。
私たちのコードはhttps://github.com/XZPKU/TRKT.git.comで有効です。
関連論文リスト
- Spatio-temporal Graph Learning on Adaptive Mined Key Frames for High-performance Multi-Object Tracking [5.746443489229576]
キーフレーム抽出(KFE)モジュールは、強化学習を利用して動画を適応的にセグメントする。
フレーム内フィーチャーフュージョン(IFF)モジュールは、ターゲットと周辺オブジェクト間の情報交換を容易にするために、グラフ畳み込みネットワーク(GCN)を使用する。
提案したトラッカーはMOT17データセット上で印象的な結果が得られる。
論文 参考訳(メタデータ) (2025-01-17T11:36:38Z) - Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - EGTR: Extracting Graph from Transformer for Scene Graph Generation [5.935927309154952]
SGG(Scene Graph Generation)は、オブジェクトを検出し、オブジェクト間の関係を予測するための課題である。
本稿では,DETRデコーダのマルチヘッド自己アテンション層で学習した様々な関係から関係グラフを抽出する軽量一段SGGモデルを提案する。
本稿では,Visual Genome と Open Image V6 データセットに対する提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-04-02T16:20:02Z) - Building Category Graphs Representation with Spatial and Temporal
Attention for Visual Navigation [35.13932194789583]
視覚ナビゲーションは、興味のある対象が与えられたとき、部分的な観察の順序に基づいて物体の位置に到達することを目的としている。
この目的のために, エージェントは, 1) 学習中の世界のオブジェクトカテゴリの関係について, ある特定の知識を学習し, 2) 学習前のオブジェクトカテゴリ関係と現在目に見えない環境における移動軌跡に基づいて対象オブジェクトを探す必要がある。
対象のカテゴリ配置に関する知識を学習するためのカテゴリ関係グラフ(CRG)と,オブジェクトの長期的空間的依存関係を知覚するTSRアテンションアーキテクチャ(TSR)を提案する。
論文 参考訳(メタデータ) (2023-12-06T07:28:43Z) - Towards Open-vocabulary Scene Graph Generation with Prompt-based
Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。
オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。
我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文 参考訳(メタデータ) (2022-08-17T09:05:38Z) - Integrating Object-aware and Interaction-aware Knowledge for Weakly
Supervised Scene Graph Generation [33.15624351965304]
既存のWSSGGのほとんどは、オブジェクト一貫性にのみ焦点をあてています。
本稿では,オブジェクト認識とインタラクション認識の両方の知識を用いて,シンプルな接地モジュールを構築することを提案する。
本手法は, 各種の弱監督下でのWSSGG性能を継続的に改善する。
論文 参考訳(メタデータ) (2022-08-03T04:20:17Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。