論文の概要: FloCoDe: Unbiased Dynamic Scene Graph Generation with Temporal Consistency and Correlation Debiasing
- arxiv url: http://arxiv.org/abs/2310.16073v2
- Date: Thu, 11 Apr 2024 07:20:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 19:08:26.497670
- Title: FloCoDe: Unbiased Dynamic Scene Graph Generation with Temporal Consistency and Correlation Debiasing
- Title(参考訳): FloCoDe: 時間一貫性と相関バイアスを考慮した非バイアス動的シーングラフ生成
- Authors: Anant Khandelwal,
- Abstract要約: textscFloDe: textbfFloCorrelation textbfDebiasing with uncertainty attenuation for unbiased dynamic scene graphs。
視覚的関係の長期的問題に対処するために,相関バイアスとラベル相関に基づく損失を提案する。
- 参考スコア(独自算出の注目度): 14.50214193838818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic scene graph generation (SGG) from videos requires not only a comprehensive understanding of objects across scenes but also a method to capture the temporal motions and interactions with different objects. Moreover, the long-tailed distribution of visual relationships is a crucial bottleneck for most dynamic SGG methods. This is because many of them focus on capturing spatio-temporal context using complex architectures, leading to the generation of biased scene graphs. To address these challenges, we propose \textsc{FloCoDe}: \textbf{Flo}w-aware Temporal Consistency and \textbf{Co}rrelation \textbf{De}biasing with uncertainty attenuation for unbiased dynamic scene graphs. \textsc{FloCoDe} employs feature warping using flow to detect temporally consistent objects across frames. To address the long-tail issue of visual relationships, we propose correlation debiasing and a label correlation-based loss to learn unbiased relation representations for long-tailed classes. Specifically, we propose to incorporate label correlations using contrastive loss to capture commonly co-occurring relations, which aids in learning robust representations for long-tailed classes. Further, we adopt the uncertainty attenuation-based classifier framework to handle noisy annotations in the SGG data. Extensive experimental evaluation shows a performance gain as high as 4.1\%, demonstrating the superiority of generating more unbiased scene graphs.
- Abstract(参考訳): ビデオからの動的シーングラフ生成(SGG)は、シーン全体にわたるオブジェクトの包括的な理解だけでなく、時間的動きと異なるオブジェクトとの相互作用をキャプチャする手法も必要である。
さらに、視覚的関係の長期分布は、ほとんどの動的SGG法にとって重要なボトルネックである。
これは、多くの場合、複雑なアーキテクチャを使って時空間をキャプチャすることに集中しており、バイアスのあるシーングラフが生成されるためである。
これらの課題に対処するために、非バイアスな動的シーングラフに対する不確定な減衰を伴って、 \textbf{Flo}w-aware Temporal Consistency と \textbf{Co}rrelation \textbf{De}biasingを提案する。
\textsc{FloCoDe} はフローを使ってフレーム間の時間的に一貫したオブジェクトを検出する。
視覚的関係の長期的問題に対処するために、長い尾を持つクラスに対する非バイアス付き関係表現を学習するために相関バイアスとラベル相関に基づく損失を提案する。
具体的には,コントラッシブ・ロスを用いてラベル相関を組み込むことにより,長い尾を持つクラスに対するロバストな表現の学習を支援する共通共起関係を捉えることを提案する。
さらに,SGGデータにおけるノイズの多いアノテーションを扱うために,不確実性減衰に基づく分類器フレームワークを採用する。
大規模な実験的評価により、パフォーマンスは4.1\%まで向上し、より偏りのないシーングラフを生成するという優位性を示している。
関連論文リスト
- TD^2-Net: Toward Denoising and Debiasing for Dynamic Scene Graph
Generation [76.24766055944554]
動的SGGのデノベーションとデボアシングを目的としたネットワークTD$2$-Netを導入する。
TD$2$-Netは、述語分類における平均リコール@10で、第2位の競争相手を12.7%上回っている。
論文 参考訳(メタデータ) (2024-01-23T04:17:42Z) - TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。
提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。
我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文 参考訳(メタデータ) (2024-01-06T06:26:49Z) - Temporal Smoothness Regularisers for Neural Link Predictors [8.975480841443272]
TNTComplExのような単純な手法は、最先端の手法よりもはるかに正確な結果が得られることを示す。
また,2つの時間的リンク予測モデルに対する幅広い時間的平滑化正規化の影響についても検討した。
論文 参考訳(メタデータ) (2023-09-16T16:52:49Z) - Vision Relation Transformer for Unbiased Scene Graph Generation [31.29954125135073]
現在のシーングラフ生成 (SGG) 法は, 関連符号化プロセスにおいて, 実体の局所レベルに関する情報損失に悩まされる。
本稿では,新しい局所レベルの実体関係エンコーダであるビジョンrElation TransfOrmer(VETO)を紹介する。
VETO+MEETは10倍の精度で予測性能を最大47パーセント向上させることを示した。
論文 参考訳(メタデータ) (2023-08-18T11:15:31Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - Unbiased Scene Graph Generation in Videos [36.889659781604564]
TEMPURA: temporal consistency and Memory-guided UnceRtainty Attenuation for unbiased dynamic SGG。
TEMPURAはトランスフォーマーシーケンスモデリングによってオブジェクトレベルの時間的整合性を採用し、バイアスのない関係表現を合成することを学ぶ。
提案手法は,既存手法に比べて大きな性能向上(場合によっては最大10%)を達成している。
論文 参考訳(メタデータ) (2023-04-03T06:10:06Z) - CAME: Context-aware Mixture-of-Experts for Unbiased Scene Graph
Generation [10.724516317292926]
本稿では,CAME(Context-Aware Mixture-of-Experts)と呼ばれるシンプルな手法を提案する。
我々は、Visual Genomeデータセットの3つのタスクについて広範囲に実験を行い、従来の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-08-15T10:39:55Z) - Hyper-relationship Learning Network for Scene Graph Generation [95.6796681398668]
本稿では,シーングラフ生成のためのハイパーリレーショナル学習ネットワークHLNを提案する。
我々は最も人気のあるSGGデータセット、すなわちVisual Genomeデータセット上でHLNを評価する。
例えば、提案されたHLNは、関係ごとのリコールを11.3%から13.1%に改善し、画像毎のリコールを19.8%から34.9%に維持する。
論文 参考訳(メタデータ) (2022-02-15T09:26:16Z) - Recovering the Unbiased Scene Graphs from the Biased Ones [99.24441932582195]
ラベルが不足しているため、シーングラフ生成(SGG)は「肯定的・未ラベルデータからの学習」(PU学習)問題とみなすことができる。
本稿では,複数のトレーニングイテレーションにまたがって,トレーニング時のデータ拡張と平均値を活用するために,動的ラベル周波数推定(DLFE)を提案する。
拡張実験の結果,DLFEは従来の推定法よりもラベル周波数の推定に有効であり,DLFEは長い尾を著しく緩和することがわかった。
論文 参考訳(メタデータ) (2021-07-05T16:10:41Z) - Addressing Class Imbalance in Scene Graph Parsing by Learning to
Contrast and Score [65.18522219013786]
シーングラフ解析は、画像シーン内のオブジェクトを検出し、それらの関係を認識することを目的としている。
最近の手法は、いくつかの人気のあるベンチマークで高い平均スコアを達成しているが、稀な関係を検出するには失敗している。
本稿では,クラス不均衡問題を解決するために,分類とランキングの新たな統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T13:57:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。