論文の概要: BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2407.18715v2
- Date: Sun, 17 Nov 2024 11:30:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:14.490633
- Title: BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation
- Title(参考訳): BCTR: シーングラフ生成のための双方向コンディショニングトランス
- Authors: Peng Hao, Xiaobing Wang, Yingying Jiang, Hanchao Jia, Xiaoshuai Hao,
- Abstract要約: シーングラフ生成(SGG)のためのセマンティックアライメント空間における新しい双方向コンディショニング因数分解法を提案する。
本稿では,双方向コンディショニングトランス (BCTR) を用いたエンド・ツー・エンドシーングラフ生成モデルを提案する。
BCTRは2つの重要なモジュールから構成されている。まず、双方向条件生成装置(BCG)は、エンティティと述語の間で多段階の対話的特徴拡張を行い、これらの予測間の相互強化を可能にする。
第二に、Random Feature Alignment(RFA)は、事前訓練されたモデルからマルチモーダルな知識を蒸留することによって特徴空間を正規化するために存在する。
- 参考スコア(独自算出の注目度): 4.977568882858193
- License:
- Abstract: Scene Graph Generation (SGG) remains a challenging task due to its compositional property. Previous approaches improve prediction efficiency through end-to-end learning. However, these methods exhibit limited performance as they assume unidirectional conditioning between entities and predicates, which restricts effective information interaction. To address this limitation, we propose a novel bidirectional conditioning factorization in a semantic-aligned space for SGG, enabling efficient and generalizable interaction between entities and predicates. Specifically, we introduce an end-to-end scene graph generation model, the Bidirectional Conditioning Transformer (BCTR), to implement this factorization. BCTR consists of two key modules. First, the Bidirectional Conditioning Generator (BCG) performs multi-stage interactive feature augmentation between entities and predicates, enabling mutual enhancement between these predictions. Second, Random Feature Alignment (RFA) is present to regularize feature space by distilling multi-modal knowledge from pre-trained models. Within this regularized feature space, BCG is feasible to capture interaction patterns across diverse relationships during training, and the learned interaction patterns can generalize to unseen but semantically related relationships during inference. Extensive experiments on Visual Genome and Open Image V6 show that BCTR achieves state-of-the-art performance on both benchmarks.
- Abstract(参考訳): シーングラフ生成(SGG)は、その構成特性のため、依然として困難な課題である。
従来のアプローチでは、エンドツーエンドの学習によって予測効率が向上している。
しかし、これらの手法は、実体と述語の間の一方向の条件付けを前提とし、効果的な情報相互作用を制限するため、限られた性能を示す。
この制限に対処するために、SGGのセマンティックアライメント空間における新しい双方向条件付け分解を提案し、エンティティと述語間の効率的で一般化可能な相互作用を可能にする。
具体的には、この因子化を実装するために、エンドツーエンドのシーングラフ生成モデルである双方向コンディショニングトランス(BCTR)を導入する。
BCTRは2つの重要なモジュールから構成される。
まず、双方向コンディショニングジェネレータ(BCG)は、エンティティと述語の間の多段階の対話的特徴拡張を行い、これらの予測間の相互強化を可能にする。
第二に、ランダム特徴アライメント(RFA)は、事前訓練されたモデルからマルチモーダルな知識を蒸留することによって特徴空間を規則化する。
この正規化された特徴空間の中では、BCGは訓練中に様々な関係をまたがる相互作用パターンを捉えることが可能であり、学習された相互作用パターンは推論中に目に見えないが意味論的に関連づけられた関係に一般化することができる。
Visual GenomeとOpen Image V6の大規模な実験は、BCTRが両方のベンチマークで最先端のパフォーマンスを達成することを示している。
関連論文リスト
- Multitask Fine-Tuning and Generative Adversarial Learning for Improved Auxiliary Classification [0.0]
3つの下流タスクをマルチタスクで微調整するための新しいBERTアーキテクチャを実装した。
我々のモデルであるMultitask BERTは、レイヤ共有とトリプルトアーキテクチャ、カスタム文ペアトークン化、損失ペアリング、勾配手術を取り入れています。
また、BERTに生成逆学習を適用し、潜在空間から写像して偽の埋め込みを生成する条件付きジェネレータモデルを構築した。
論文 参考訳(メタデータ) (2024-08-11T20:05:54Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - ALF: Adaptive Label Finetuning for Scene Graph Generation [116.59868289196157]
画像中の被写体と物体の関係を予測するためのシーングラフ生成の試み
関係の長期分布は、しばしば粗いラベルの偏りの予測につながり、SGGにおいて大きなハードルとなる。
我々はSGGに1段階のデータ転送パイプラインを導入し、ALF(Adaptive Label Finetuning)と呼ばれ、追加のトレーニングセッションを不要にする。
ALFは一般的なSGG法であるMotifに比べてmR@100が16%改善され、最先端のIETransに比べて計算コストは6%増加した。
論文 参考訳(メタデータ) (2023-12-29T01:37:27Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z) - Temporal Action Proposal Generation with Transformers [25.66256889923748]
本稿では,オリジナルトランスフォーマーを用いた時間的アクション提案生成フレームワークを直感的に提案する。
境界変換器は、長期の時間的依存関係をキャプチャして正確な境界情報を予測する。
The Proposal Transformer learns the rich-proposal relationship for reliable confidence evaluation。
論文 参考訳(メタデータ) (2021-05-25T16:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。