論文の概要: Unbiased Video Scene Graph Generation via Visual and Semantic Dual Debiasing
- arxiv url: http://arxiv.org/abs/2503.00548v1
- Date: Sat, 01 Mar 2025 16:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:15:32.245584
- Title: Unbiased Video Scene Graph Generation via Visual and Semantic Dual Debiasing
- Title(参考訳): 映像とセマンティックデュアルデバイアスによるビデオシーングラフ生成
- Authors: Yanjun Li, Zhaoyang Li, Honghui Chen, Lizhi Xu,
- Abstract要約: ビデオシーングラフ生成(VidSGG)は、映像フレームを逐次解析し、視覚情報と意味情報を統合することによって、エンティティ間の動的関係をキャプチャすることを目的としている。
本稿では,ビジュアル・セマンティック・アウェアネス(VISA)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.352570324002505
- License:
- Abstract: Video Scene Graph Generation (VidSGG) aims to capture dynamic relationships among entities by sequentially analyzing video frames and integrating visual and semantic information. However, VidSGG is challenged by significant biases that skew predictions. To mitigate these biases, we propose a VIsual and Semantic Awareness (VISA) framework for unbiased VidSGG. VISA addresses visual bias through memory-enhanced temporal integration that enhances object representations and concurrently reduces semantic bias by iteratively integrating object features with comprehensive semantic information derived from triplet relationships. This visual-semantics dual debiasing approach results in more unbiased representations of complex scene dynamics. Extensive experiments demonstrate the effectiveness of our method, where VISA outperforms existing unbiased VidSGG approaches by a substantial margin (e.g., +13.1% improvement in mR@20 and mR@50 for the SGCLS task under Semi Constraint).
- Abstract(参考訳): ビデオシーングラフ生成(VidSGG)は、映像フレームを逐次解析し、視覚情報と意味情報を統合することによって、エンティティ間の動的関係をキャプチャすることを目的としている。
しかし、VidSGGは予測を歪ませる重大なバイアスに悩まされている。
これらのバイアスを軽減するために、未バイアスのVidSGGのためのVISA(Visual and Semantic Awareness)フレームワークを提案する。
VISAは、オブジェクト表現を強化し、三重項関係から派生した包括的意味情報とオブジェクト特徴を反復的に統合することにより、視覚的バイアスを同時に低減するメモリ強化時間統合を通して、視覚的バイアスに対処する。
このビジュアル・セマンティック・デュアル・デバイアス・アプローチは、複雑なシーンダイナミクスのより非バイアスな表現をもたらす。
大規模な実験により,VISA は既存の非偏り VidSGG アプローチよりもかなりの差(mR@20 と mR@50 を半制約下での SGCLS タスクに対して+13.1% 改善)で優れていた。
関連論文リスト
- Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - TD^2-Net: Toward Denoising and Debiasing for Dynamic Scene Graph
Generation [76.24766055944554]
動的SGGのデノベーションとデボアシングを目的としたネットワークTD$2$-Netを導入する。
TD$2$-Netは、述語分類における平均リコール@10で、第2位の競争相手を12.7%上回っている。
論文 参考訳(メタデータ) (2024-01-23T04:17:42Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Triple Correlations-Guided Label Supplementation for Unbiased Video
Scene Graph Generation [27.844658260885744]
映像ベースのシーングラフ生成(VidSGG)は、視覚的実体とその関係を識別することによって動的グラフ内の映像コンテンツを表現することを目的とした手法である。
現在のVidSGG法は、表現の少ない述語では性能が良くない。
そこで,本論文では,真真正のアノテーションに現れるべき不備の述語を補足することで,明示的な解決法を提案する。
論文 参考訳(メタデータ) (2023-07-30T19:59:17Z) - Unbiased Scene Graph Generation in Videos [36.889659781604564]
TEMPURA: temporal consistency and Memory-guided UnceRtainty Attenuation for unbiased dynamic SGG。
TEMPURAはトランスフォーマーシーケンスモデリングによってオブジェクトレベルの時間的整合性を採用し、バイアスのない関係表現を合成することを学ぶ。
提案手法は,既存手法に比べて大きな性能向上(場合によっては最大10%)を達成している。
論文 参考訳(メタデータ) (2023-04-03T06:10:06Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z) - Interventional Video Grounding with Dual Contrastive Learning [16.0734337895897]
ビデオグラウンドティングは、与えられたテキストクエリのために、未編集のビデオから瞬間をローカライズすることを目的としている。
本稿では、因果推論の観点から新しいパラダイムを提案し、モデルとデータの背後にある因果関係を明らかにする。
また、テキストとビデオの整合性を改善するために、二重のコントラスト学習アプローチを導入しています。
論文 参考訳(メタデータ) (2021-06-21T12:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。