論文の概要: Weakly Supervised Visual Semantic Parsing
- arxiv url: http://arxiv.org/abs/2001.02359v2
- Date: Tue, 31 Mar 2020 18:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 12:42:29.090431
- Title: Weakly Supervised Visual Semantic Parsing
- Title(参考訳): 視覚的意味解析の弱さ
- Authors: Alireza Zareian, Svebor Karaman, Shih-Fu Chang
- Abstract要約: SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としている。
既存のSGGメソッドでは、トレーニングのために何百万もの手動アノテーション付きバウンディングボックスが必要である。
本稿では,ビジュアルセマンティック・パーシング,VSPNet,グラフベースの弱教師付き学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 49.69377653925448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Graph Generation (SGG) aims to extract entities, predicates and their
semantic structure from images, enabling deep understanding of visual content,
with many applications such as visual reasoning and image retrieval.
Nevertheless, existing SGG methods require millions of manually annotated
bounding boxes for training, and are computationally inefficient, as they
exhaustively process all pairs of object proposals to detect predicates. In
this paper, we address those two limitations by first proposing a generalized
formulation of SGG, namely Visual Semantic Parsing, which disentangles entity
and predicate recognition, and enables sub-quadratic performance. Then we
propose the Visual Semantic Parsing Network, VSPNet, based on a dynamic,
attention-based, bipartite message passing framework that jointly infers graph
nodes and edges through an iterative process. Additionally, we propose the
first graph-based weakly supervised learning framework, based on a novel graph
alignment algorithm, which enables training without bounding box annotations.
Through extensive experiments, we show that VSPNet outperforms weakly
supervised baselines significantly and approaches fully supervised performance,
while being several times faster. We publicly release the source code of our
method.
- Abstract(参考訳): SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としており、視覚的推論や画像検索など多くのアプリケーションで視覚的内容の深い理解を可能にする。
それでも、既存のSGG法は、トレーニングのために何百万もの手動の注釈付きバウンディングボックスを必要とし、述語を検出するために全対のオブジェクト提案を徹底的に処理するため、計算的に非効率である。
本稿では,まずsggの一般化した定式化,すなわち,エンティティ認識と述語認識を異にする視覚意味解析を提案し,サブクアドラル性能を実現することで,これらの2つの制約を解決する。
そこで我々は,グラフノードとエッジを反復的に推論する動的,注目に基づく双方向メッセージパッシングフレームワークであるVisual Semantic Parsing Network(VSPNet)を提案する。
さらに,新しいグラフアライメントアルゴリズムに基づいて,ボックスアノテーションを使わずにトレーニングが可能な,グラフベースの弱い教師付き学習フレームワークを提案する。
広範な実験により, VSPNetは弱教師付きベースラインを著しく上回り, 完全に教師付き性能に近づきつつ, 数倍高速であることを示す。
我々は,我々のメソッドのソースコードを公開している。
関連論文リスト
- Improving vision-language alignment with graph spiking hybrid Networks [6.707524980629404]
本稿では,細粒度のセマンティックな特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティクスの活用を必要とする包括的ビジュアルセマンティクス表現モジュールを提案する。
視覚的セマンティック情報を符号化するために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。
論文 参考訳(メタデータ) (2025-01-31T11:55:17Z) - Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision? [62.12375949429938]
CLIPパイプラインによる転送可能なグラフニューラルネットワーク(GNN)の構築は、3つの根本的な問題のために難しい。
我々は、マルチモーダル・プロンプト・ラーニングを利用して、事前学習したGNNを下流のタスクやデータに効果的に適応させる。
我々の新しいパラダイムは、グラフプロンプトとテキストプロンプトの両方を同時に学習することで、Large Language Models(LLM)と直接同じ空間にグラフを埋め込む。
論文 参考訳(メタデータ) (2024-12-11T08:03:35Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Learning the Implicit Semantic Representation on Graph-Structured Data [57.670106959061634]
グラフ畳み込みネットワークにおける既存の表現学習手法は主に、各ノードの近傍を知覚全体として記述することで設計される。
本稿では,グラフの潜在意味パスを学習することで暗黙的な意味を探索する意味グラフ畳み込みネットワーク(sgcn)を提案する。
論文 参考訳(メタデータ) (2021-01-16T16:18:43Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。