論文の概要: TD^2-Net: Toward Denoising and Debiasing for Dynamic Scene Graph
Generation
- arxiv url: http://arxiv.org/abs/2401.12479v1
- Date: Tue, 23 Jan 2024 04:17:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 16:55:21.490594
- Title: TD^2-Net: Toward Denoising and Debiasing for Dynamic Scene Graph
Generation
- Title(参考訳): TD^2-Net:動的シーングラフ生成のためのデノイズ化とデバイアス化に向けて
- Authors: Xin Lin, Chong Shi, Yibing Zhan, Zuopeng Yang, Yaqi Wu, Dacheng Tao
- Abstract要約: 動的SGGのデノベーションとデボアシングを目的としたネットワークTD$2$-Netを導入する。
TD$2$-Netは、述語分類における平均リコール@10で、第2位の競争相手を12.7%上回っている。
- 参考スコア(独自算出の注目度): 76.24766055944554
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Dynamic scene graph generation (SGG) focuses on detecting objects in a video
and determining their pairwise relationships. Existing dynamic SGG methods
usually suffer from several issues, including 1) Contextual noise, as some
frames might contain occluded and blurred objects. 2) Label bias, primarily due
to the high imbalance between a few positive relationship samples and numerous
negative ones. Additionally, the distribution of relationships exhibits a
long-tailed pattern. To address the above problems, in this paper, we introduce
a network named TD$^2$-Net that aims at denoising and debiasing for dynamic
SGG. Specifically, we first propose a denoising spatio-temporal transformer
module that enhances object representation with robust contextual information.
This is achieved by designing a differentiable Top-K object selector that
utilizes the gumbel-softmax sampling strategy to select the relevant
neighborhood for each object. Second, we introduce an asymmetrical reweighting
loss to relieve the issue of label bias. This loss function integrates
asymmetry focusing factors and the volume of samples to adjust the weights
assigned to individual samples. Systematic experimental results demonstrate the
superiority of our proposed TD$^2$-Net over existing state-of-the-art
approaches on Action Genome databases. In more detail, TD$^2$-Net outperforms
the second-best competitors by 12.7 \% on mean-Recall@10 for predicate
classification.
- Abstract(参考訳): 動的シーングラフ生成(SGG)は、ビデオ中のオブジェクトを検出し、それらのペア関係を決定することに焦点を当てる。
既存の動的SGGメソッドは通常、いくつかの問題に悩まされる。
1)コンテキストノイズは、一部のフレームがオクルードやぼやけたオブジェクトを含む可能性があるためである。
2) ラベルバイアスは, 少数の正の関係試料と多数の負の関係試料との高不均衡に起因する。
さらに、関係の分布は長い尾のパターンを示す。
上記の問題に対処するため,本稿では動的sggのデニューズとデバイアスを目的としたtd$^2$-netというネットワークを紹介する。
具体的には,まず,ロバストなコンテクスト情報を用いてオブジェクト表現を強化する,時空間トランスフォーマーモジュールを提案する。
これは、各オブジェクトの関連する近傍を選択するためにgumbel-softmaxサンプリング戦略を利用する微分可能なtop-kオブジェクトセレクタを設計することによって達成される。
次に,ラベルバイアスの問題を緩和するために,非対称再加重損失を導入する。
この損失関数は、非対称性の焦点因子とサンプルの体積を統合して、個々のサンプルに割り当てられた重みを調整する。
系統的実験により,提案するtd$^2$-netが,行動ゲノムデータベースにおける既存の最先端手法よりも優れていることが示された。
より詳しくは、td$^2$-net は述語分類の mean-recall@10 において2番目に高い競争相手を 12.7 %上回っている。
関連論文リスト
- Fine-Grained Scene Graph Generation via Sample-Level Bias Prediction [12.319354506916547]
微粒なシーングラフ生成のためのサンプルレベルバイアス予測(SBP)手法を提案する。
まず、古典的なSGGモデルを訓練し、補正バイアスセットを構築する。
そこで我々は,BGAN(Bias-Oriented Generative Adversarial Network)を考案し,構築した補正バイアスを予測する。
論文 参考訳(メタデータ) (2024-07-27T13:49:06Z) - FloCoDe: Unbiased Dynamic Scene Graph Generation with Temporal Consistency and Correlation Debiasing [14.50214193838818]
FloCoDe: 動的シーングラフに対する不確実性減衰を伴うフロー認識時間と相関バイアス
本稿では,長い尾を持つクラスに対する非バイアス付き関係表現を学習するために,相関バイアスと相関に基づく損失を提案する。
論文 参考訳(メタデータ) (2023-10-24T14:59:51Z) - Informative Scene Graph Generation via Debiasing [124.71164256146342]
シーングラフ生成は、視覚的関係三重項(オブジェクト、述語、オブジェクト)を検出することを目的としている
データのバイアスのため、現在のモデルは一般的な述語を予測する傾向がある。
本稿では,DB-SGGを提案する。
論文 参考訳(メタデータ) (2023-08-10T02:04:01Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - NICEST: Noisy Label Correction and Training for Robust Scene Graph Generation [65.78472854070316]
我々は,SGG:NICESTのための新しいNoIsyラベルCorrEction and Sample Training戦略を提案する。
NICEはまずノイズのあるサンプルを検出し、さらに高品質な述語ラベルを割り当てる。
NICESTは任意のSGGアーキテクチャにシームレスに組み込んで、さまざまな述語カテゴリのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2022-07-27T06:25:47Z) - RU-Net: Regularized Unrolling Network for Scene Graph Generation [92.95032610978511]
シーングラフ生成(SGG)は、オブジェクトを検出し、各オブジェクト間の関係を予測することを目的としている。
既存のSGG法は,(1)あいまいな対象表現,2)関係予測の多様性の低下など,いくつかの問題に悩まされることが多い。
両問題に対処する正規化アンローリングネットワーク(RU-Net)を提案する。
論文 参考訳(メタデータ) (2022-05-03T04:21:15Z) - Instance-Level Relative Saliency Ranking with Graph Reasoning [126.09138829920627]
そこで本研究では,有意な事例を分割し,相対的有意な有意なランク順序を推定するための統一モデルを提案する。
また、サラレンシーランキングブランチを効果的にトレーニングするために、新しい損失関数も提案されている。
実験の結果,提案手法は従来の手法よりも有効であることがわかった。
論文 参考訳(メタデータ) (2021-07-08T13:10:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。