Fugu-MT 論文翻訳(概要): Weakly Supervised Visual Semantic Parsing

論文の概要: Weakly Supervised Visual Semantic Parsing

arxiv url: http://arxiv.org/abs/2001.02359v2
Date: Tue, 31 Mar 2020 18:54:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-13 12:42:29.090431
Title: Weakly Supervised Visual Semantic Parsing
Title（参考訳）: 視覚的意味解析の弱さ
Authors: Alireza Zareian, Svebor Karaman, Shih-Fu Chang
Abstract要約: SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としている。既存のSGGメソッドでは、トレーニングのために何百万もの手動アノテーション付きバウンディングボックスが必要である。本稿では,ビジュアルセマンティック・パーシング,VSPNet,グラフベースの弱教師付き学習フレームワークを提案する。
参考スコア（独自算出の注目度）: 49.69377653925448
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scene Graph Generation (SGG) aims to extract entities, predicates and their semantic structure from images, enabling deep understanding of visual content, with many applications such as visual reasoning and image retrieval. Nevertheless, existing SGG methods require millions of manually annotated bounding boxes for training, and are computationally inefficient, as they exhaustively process all pairs of object proposals to detect predicates. In this paper, we address those two limitations by first proposing a generalized formulation of SGG, namely Visual Semantic Parsing, which disentangles entity and predicate recognition, and enables sub-quadratic performance. Then we propose the Visual Semantic Parsing Network, VSPNet, based on a dynamic, attention-based, bipartite message passing framework that jointly infers graph nodes and edges through an iterative process. Additionally, we propose the first graph-based weakly supervised learning framework, based on a novel graph alignment algorithm, which enables training without bounding box annotations. Through extensive experiments, we show that VSPNet outperforms weakly supervised baselines significantly and approaches fully supervised performance, while being several times faster. We publicly release the source code of our method.
Abstract（参考訳）: SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としており、視覚的推論や画像検索など多くのアプリケーションで視覚的内容の深い理解を可能にする。それでも、既存のSGG法は、トレーニングのために何百万もの手動の注釈付きバウンディングボックスを必要とし、述語を検出するために全対のオブジェクト提案を徹底的に処理するため、計算的に非効率である。本稿では,まずsggの一般化した定式化,すなわち,エンティティ認識と述語認識を異にする視覚意味解析を提案し,サブクアドラル性能を実現することで,これらの2つの制約を解決する。そこで我々は,グラフノードとエッジを反復的に推論する動的,注目に基づく双方向メッセージパッシングフレームワークであるVisual Semantic Parsing Network(VSPNet)を提案する。さらに,新しいグラフアライメントアルゴリズムに基づいて,ボックスアノテーションを使わずにトレーニングが可能な,グラフベースの弱い教師付き学習フレームワークを提案する。広範な実験により, VSPNetは弱教師付きベースラインを著しく上回り, 完全に教師付き性能に近づきつつ, 数倍高速であることを示す。我々は,我々のメソッドのソースコードを公開している。

関連論文リスト

Vision Graph Prompting via Semantic Low-Rank Decomposition [10.223578525761617]
Vision GNN (ViG) は、画像をグラフ構造として表現することで、優れた性能を示す。下流タスクにViGを効率的に適応させるためには、視覚的プロンプトのようなパラメータ効率の良い微調整技術がますます不可欠になっている。視覚グラフ構造に適した新しいフレームワークであるビジョングラフプロンプティング(VGP)を提案する。
論文参考訳（メタデータ） (2025-05-07T04:29:29Z)
PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。 PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。 PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文参考訳（メタデータ） (2025-04-01T14:29:51Z)
TreeX: Generating Global Graphical GNN Explanations via Critical Subtree Extraction [38.99239532650183]
メッセージパッシングの内部動作によって生じる重要なサブツリーを分析し,抽出することにより,GNNのアンボックス化を提案する。埋め込み空間のサブツリーを効率的なアルゴリズムで集約することにより、ローカル、クラス、グローバルレベルでメッセージパッシングGNNの直感的なグラフィカルな説明を行うことができる。
論文参考訳（メタデータ） (2025-03-12T04:36:28Z)
Improving vision-language alignment with graph spiking hybrid Networks [10.88584928028832]
本稿では,細粒度のセマンティックな特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティクスの活用を必要とする包括的ビジュアルセマンティクス表現モジュールを提案する。視覚的セマンティック情報を符号化するために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。
論文参考訳（メタデータ） (2025-01-31T11:55:17Z)
Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision? [62.12375949429938]
CLIPパイプラインによる転送可能なグラフニューラルネットワーク(GNN)の構築は、3つの根本的な問題のために難しい。我々は、マルチモーダル・プロンプト・ラーニングを利用して、事前学習したGNNを下流のタスクやデータに効果的に適応させる。我々の新しいパラダイムは、グラフプロンプトとテキストプロンプトの両方を同時に学習することで、Large Language Models(LLM)と直接同じ空間にグラフを埋め込む。
論文参考訳（メタデータ） (2024-12-11T08:03:35Z)
SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文参考訳（メタデータ） (2023-08-03T07:00:04Z)
CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文参考訳（メタデータ） (2023-05-12T08:19:39Z)
Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。 HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。 3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文参考訳（メタデータ） (2023-03-02T08:00:22Z)
Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning [84.39787427288525]
シーングラフ生成(SGG)は、画像内のオブジェクト間の視覚的関係を検出するための基本的なタスクである。オープンボキャブラリシーングラフ生成は,モデルが一連のベースオブジェクトクラスでトレーニングされる,斬新で現実的で困難な設定である。我々のメソッドは、既存のメソッドが処理できない、完全に見えないオブジェクトクラスに対する推論をサポートすることができる。
論文参考訳（メタデータ） (2022-08-17T09:05:38Z)
Learning the Implicit Semantic Representation on Graph-Structured Data [57.670106959061634]
グラフ畳み込みネットワークにおける既存の表現学習手法は主に、各ノードの近傍を知覚全体として記述することで設計される。本稿では,グラフの潜在意味パスを学習することで暗黙的な意味を探索する意味グラフ畳み込みネットワーク(sgcn)を提案する。
論文参考訳（メタデータ） (2021-01-16T16:18:43Z)
A Graph-based Interactive Reasoning for Human-Object Interaction Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。 In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文参考訳（メタデータ） (2020-07-14T09:29:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。