Fugu-MT 論文翻訳(概要): HiKER-SGG: Hierarchical Knowledge Enhanced Robust Scene Graph Generation

論文の概要: HiKER-SGG: Hierarchical Knowledge Enhanced Robust Scene Graph Generation

arxiv url: http://arxiv.org/abs/2403.12033v1
Date: Mon, 18 Mar 2024 17:59:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 18:51:34.001871
Title: HiKER-SGG: Hierarchical Knowledge Enhanced Robust Scene Graph Generation
Title（参考訳）: HiKER-SG:階層的知識によるロバストなシーングラフ生成
Authors: Ce Zhang, Simon Stepputtis, Joseph Campbell, Katia Sycara, Yaqi Xie,
Abstract要約: 視覚データに対する推論を可能にする一般的なアプローチとして、Scene Graph Generation (SGG)がある。そこで本稿では,視覚ゲノムデータセット上でのプロシージャ的に生成された気象汚染やその他の変換を含む新しいSGGベンチマークを提案する。また,HKER-SGGは劣化した画像に対してゼロショット方式で優れた性能を示すだけでなく,非破壊なSGGタスクにおける最先端の手法よりも優れた性能を示すことを示す。
参考スコア（独自算出の注目度）: 13.929906773382752
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Being able to understand visual scenes is a precursor for many downstream tasks, including autonomous driving, robotics, and other vision-based approaches. A common approach enabling the ability to reason over visual data is Scene Graph Generation (SGG); however, many existing approaches assume undisturbed vision, i.e., the absence of real-world corruptions such as fog, snow, smoke, as well as non-uniform perturbations like sun glare or water drops. In this work, we propose a novel SGG benchmark containing procedurally generated weather corruptions and other transformations over the Visual Genome dataset. Further, we introduce a corresponding approach, Hierarchical Knowledge Enhanced Robust Scene Graph Generation (HiKER-SGG), providing a strong baseline for scene graph generation under such challenging setting. At its core, HiKER-SGG utilizes a hierarchical knowledge graph in order to refine its predictions from coarse initial estimates to detailed predictions. In our extensive experiments, we show that HiKER-SGG does not only demonstrate superior performance on corrupted images in a zero-shot manner, but also outperforms current state-of-the-art methods on uncorrupted SGG tasks. Code is available at https://github.com/zhangce01/HiKER-SGG.
Abstract（参考訳）: 視覚的なシーンを理解することは、自律運転、ロボティクス、その他の視覚に基づくアプローチなど、多くの下流タスクの先駆けとなる。しかし、既存の多くのアプローチでは、霧、雪、煙のような現実世界の汚職や、太陽フレアや水滴のような不均一な摂動が欠如していると仮定している。そこで本研究では,視覚ゲノムデータセット上でのプロシージャ的に生成された気象汚染やその他の変換を含む新しいSGGベンチマークを提案する。さらに,階層的知識向上型ロバストシーングラフ生成(HiKER-SGG)を導入し,このような困難な環境下でのシーングラフ生成の強力なベースラインを提供する。中心となるHiKER-SGGは階層的な知識グラフを用いて予測を粗い初期推定から詳細な予測へと洗練する。広汎な実験では、非破壊画像上でのHKER-SGGは、ゼロショット方式で優れた性能を示すだけでなく、非破壊SGGタスクにおける最先端の手法よりも優れた性能を示す。コードはhttps://github.com/zhangce01/HiKER-SGGで入手できる。

関連論文リスト

PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。 PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。 PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文参考訳（メタデータ） (2025-04-01T14:29:51Z)
Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention [69.36723767339001]
SGG(Scene Graph Generation)は、多くのコンピュータビジョンアプリケーションにおいて重要な構造化された表現を提供する。我々はOvSGTRという名前の統一フレームワークを全体的視点から完全にオープンな語彙SGGに向けて提案する。関係付きオープン語彙SGGのより困難な設定のために、提案手法は関係対応型事前学習を統合する。
論文参考訳（メタデータ） (2023-11-18T06:49:17Z)
Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient Scene Graph Generation [0.7851536646859476]
本稿では,関連性の生成を優先するSGG(Efficient Scene Graph Generation)の課題を紹介する。我々は、人気のあるVisual Genomeデータセットのアノテーションに基づいて、新しいデータセットVG150をキュレートする。我々は、このデータセットが通常SGGで使用されるものよりも高品質で多様なアノテーションを含んでいることを示す一連の実験を通して示す。
論文参考訳（メタデータ） (2023-05-30T00:55:49Z)
Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World [67.03968403301143]
SGG(Scene Graph Generation)は、視覚理解のための画像中の主観的、述語的、対象的な関係を抽出することを目的としている。既存の再バランス戦略は、以前のルールを通じてそれを処理しようとするが、まだ事前に定義された条件に制限されている。そこで我々は,多種多様な粒度の述語を生成するために,視覚的にプロンプトされた言語モデルを学習するクロスモーダルプレディケイトブースティング(CaCao)フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-23T13:06:38Z)
Iterative Scene Graph Generation with Generative Transformers [6.243995448840211]
シーングラフは、エンティティ(オブジェクト)とその空間関係をグラフィカルなフォーマットで符号化することで、シーンのリッチで構造化された表現を提供する。現在のアプローチでは、シーン内のオブジェクト間のすべての可能なエッジのラベル付けを通じてシーングラフを生成する、世代別分類アプローチを採用している。この研究は、リンク予測を超えたシーングラフを生成するための生成トランスフォーマーベースのアプローチを導入する。
論文参考訳（メタデータ） (2022-11-30T00:05:44Z)
Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文参考訳（メタデータ） (2022-08-17T09:05:38Z)
Learning To Generate Scene Graph from Head to Tail [65.48134724633472]
我々は,頭から爪までのシーングラフを生成する新しいSGGフレームワーク(SGG-HT)を提案する。 CRMはまず、ヘッドプレフィックスの堅牢な機能のためにヘッド/イージーなサンプルを学び、徐々にテール/ハードなものに集中します。 SCMは,大域的および局所的な表現において,生成したシーングラフと基底的真実とのセマンティック一貫性を確保することで意味の偏りを緩和する。
論文参考訳（メタデータ） (2022-06-23T12:16:44Z)
Fine-Grained Scene Graph Generation with Data Transfer [127.17675443137064]
シーングラフ生成(SGG)は、画像中の三つ子(オブジェクト、述語、オブジェクト)を抽出することを目的としている。最近の研究は、SGGを着実に進歩させ、高レベルの視覚と言語理解に有用なツールを提供している。そこで本研究では,プレー・アンド・プラグ方式で適用可能で,約1,807の述語クラスを持つ大規模SGGに拡張可能な,内部・外部データ転送(IETrans)手法を提案する。
論文参考訳（メタデータ） (2022-03-22T12:26:56Z)
Unbiased Scene Graph Generation from Biased Training [99.88125954889937]
因果推論に基づく新しいSGGフレームワークを提案するが、従来の可能性ではない。トレーニングされたグラフから反ファクト因果関係を抽出し、悪バイアスから影響を推測する。特に,無バイアスSGGに対する最終述語スコアとしてTotal Direct Effect(TDE)を用いる。
論文参考訳（メタデータ） (2020-02-27T07:29:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。