論文の概要: Learning To Generate Scene Graph from Head to Tail
- arxiv url: http://arxiv.org/abs/2206.11653v1
- Date: Thu, 23 Jun 2022 12:16:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 13:37:53.491258
- Title: Learning To Generate Scene Graph from Head to Tail
- Title(参考訳): 頭から尾までシーングラフを生成するための学習
- Authors: Chaofan Zheng, Xinyu Lyu, Yuyu Guo, Pengpeng Zeng, Jingkuan Song,
Lianli Gao
- Abstract要約: 我々は,頭から爪までのシーングラフを生成する新しいSGGフレームワーク(SGG-HT)を提案する。
CRMはまず、ヘッドプレフィックスの堅牢な機能のためにヘッド/イージーなサンプルを学び、徐々にテール/ハードなものに集中します。
SCMは,大域的および局所的な表現において,生成したシーングラフと基底的真実とのセマンティック一貫性を確保することで意味の偏りを緩和する。
- 参考スコア(独自算出の注目度): 65.48134724633472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Graph Generation (SGG) represents objects and their interactions with a
graph structure. Recently, many works are devoted to solving the imbalanced
problem in SGG. However, underestimating the head predicates in the whole
training process, they wreck the features of head predicates that provide
general features for tail ones. Besides, assigning excessive attention to the
tail predicates leads to semantic deviation. Based on this, we propose a novel
SGG framework, learning to generate scene graphs from Head to Tail (SGG-HT),
containing Curriculum Re-weight Mechanism (CRM) and Semantic Context Module
(SCM). CRM learns head/easy samples firstly for robust features of head
predicates and then gradually focuses on tail/hard ones. SCM is proposed to
relieve semantic deviation by ensuring the semantic consistency between the
generated scene graph and the ground truth in global and local representations.
Experiments show that SGG-HT significantly alleviates the biased problem and
chieves state-of-the-art performances on Visual Genome.
- Abstract(参考訳): scene graph generation (sgg) はオブジェクトとその相互作用をグラフ構造で表現する。
近年、SGGにおける不均衡問題の解決に多くの研究が費やされている。
しかし、訓練過程全体において頭部述語を過小評価すると、尾部述語に一般的な特徴を与える頭部述語の特徴を損なう。
さらに、尾の述語に過剰な注意を向けると意味の偏りが生じる。
そこで本研究では,Curriculum Re-weight Mechanism (CRM) とSemantic Context Module (SCM) を含む,Head to Tail (SGG-HT) からシーングラフを生成する新しいSGGフレームワークを提案する。
CRMはまず、ヘッドプレフィックスの堅牢な機能のためにヘッド/イージーなサンプルを学び、徐々にテール/ハードなものに集中します。
SCMは,大域的および局所的な表現において生成したシーングラフと基底的真実とのセマンティック一貫性を確保することで意味の偏りを緩和する。
実験により、SGG-HTはバイアス問題を大幅に軽減し、Visual Genomeの最先端性能を向上することが示された。
関連論文リスト
- HiKER-SGG: Hierarchical Knowledge Enhanced Robust Scene Graph Generation [13.929906773382752]
視覚データに対する推論を可能にする一般的なアプローチとして、Scene Graph Generation (SGG)がある。
そこで本稿では,視覚ゲノムデータセット上でのプロシージャ的に生成された気象汚染やその他の変換を含む新しいSGGベンチマークを提案する。
また,HKER-SGGは劣化した画像に対してゼロショット方式で優れた性能を示すだけでなく,非破壊なSGGタスクにおける最先端の手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-18T17:59:10Z) - GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives [69.36723767339001]
我々は,より正確で包括的なシーングラフ信号を得るために,textitGPT4SGという新しいフレームワークを提案する。
textitGPT4SGGは、画像キャプチャーデータに基づいて訓練されたSGGモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-07T14:11:00Z) - Head-Tail Cooperative Learning Network for Unbiased Scene Graph
Generation [30.467562472064177]
現在の無バイアスのシーングラフ生成(SGG)手法は、頭部述語予測におけるかなりの犠牲を無視している。
本稿では,頭部優先と尾長優先の特徴表現を含むモデル非依存型頭位協調学習ネットワークを提案する。
提案手法は,リコールにおいて最小限の犠牲を伴って高い平均リコールを実現し,新しい最先端の総合性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T10:29:25Z) - Vision Relation Transformer for Unbiased Scene Graph Generation [31.29954125135073]
現在のシーングラフ生成 (SGG) 法は, 関連符号化プロセスにおいて, 実体の局所レベルに関する情報損失に悩まされる。
本稿では,新しい局所レベルの実体関係エンコーダであるビジョンrElation TransfOrmer(VETO)を紹介する。
VETO+MEETは10倍の精度で予測性能を最大47パーセント向上させることを示した。
論文 参考訳(メタデータ) (2023-08-18T11:15:31Z) - Visually-Prompted Language Model for Fine-Grained Scene Graph Generation
in an Open World [67.03968403301143]
SGG(Scene Graph Generation)は、視覚理解のための画像中の主観的、述語的、対象的な関係を抽出することを目的としている。
既存の再バランス戦略は、以前のルールを通じてそれを処理しようとするが、まだ事前に定義された条件に制限されている。
そこで我々は,多種多様な粒度の述語を生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケイトブースティング(CaCao)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-23T13:06:38Z) - CAME: Context-aware Mixture-of-Experts for Unbiased Scene Graph
Generation [10.724516317292926]
本稿では,CAME(Context-Aware Mixture-of-Experts)と呼ばれるシンプルな手法を提案する。
我々は、Visual Genomeデータセットの3つのタスクについて広範囲に実験を行い、従来の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-08-15T10:39:55Z) - Dual-branch Hybrid Learning Network for Unbiased Scene Graph Generation [87.13847750383778]
シーングラフ生成のための頭部述語と尾部述語の両方を扱うDual-branch Hybrid Learning Network (DHL)を提案する。
提案手法は,VGおよびGQAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-16T11:53:50Z) - From General to Specific: Informative Scene Graph Generation via Balance
Adjustment [113.04103371481067]
現在のモデルは、情報的なモデルではなく、例えば"on"や"at"といった一般的な述語に留まっている。
本稿では,バランス調整に基づくフレームワークであるBA-SGGを提案する。
提案手法は,視覚ゲノム上の3つのシーングラフ生成サブタスクにおいて,トランスフォーマーモデルよりも14.3%,8.0%,および6.1%高い平均リコール(mR)を実現する。
論文 参考訳(メタデータ) (2021-08-30T11:39:43Z) - PCPL: Predicate-Correlation Perception Learning for Unbiased Scene Graph
Generation [58.98802062945709]
本稿では,適切な損失重みを適応的に求めるための新しい述語相関知覚学習手法を提案する。
我々のPCPLフレームワークは、文脈特徴をよりよく抽出するグラフエンコーダモジュールも備えています。
論文 参考訳(メタデータ) (2020-09-02T08:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。