論文の概要: Visual Distant Supervision for Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2103.15365v1
- Date: Mon, 29 Mar 2021 06:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 14:57:07.894931
- Title: Visual Distant Supervision for Scene Graph Generation
- Title(参考訳): シーングラフ生成のための視覚遠隔監視
- Authors: Yuan Yao, Ao Zhang, Xu Han, Mengdi Li, Cornelius Weber, Zhiyuan Liu,
Stefan Wermter, Maosong Sun
- Abstract要約: シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
- 参考スコア(独自算出の注目度): 66.10579690929623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene graph generation aims to identify objects and their relations in
images, providing structured image representations that can facilitate numerous
applications in computer vision. However, scene graph models usually require
supervised learning on large quantities of labeled data with intensive human
annotation. In this work, we propose visual distant supervision, a novel
paradigm of visual relation learning, which can train scene graph models
without any human-labeled data. The intuition is that by aligning commonsense
knowledge bases and images, we can automatically create large-scale labeled
data to provide distant supervision for visual relation learning. To alleviate
the noise in distantly labeled data, we further propose a framework that
iteratively estimates the probabilistic relation labels and eliminates the
noisy ones. Comprehensive experimental results show that our distantly
supervised model outperforms strong weakly supervised and semi-supervised
baselines. By further incorporating human-labeled data in a semi-supervised
fashion, our model outperforms state-of-the-art fully supervised models by a
large margin (e.g., 8.6 micro- and 7.6 macro-recall@50 improvements for
predicate classification in Visual Genome evaluation). All the data and code
will be available to facilitate future research.
- Abstract(参考訳): シーングラフ生成は、画像中のオブジェクトとその関係を識別することを目的としており、コンピュータビジョンにおける多数の応用を促進する構造化画像表現を提供する。
しかし、シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータなしでシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
その直感は、コモンセンスの知識ベースとイメージを整列させることで、大規模ラベル付きデータを自動的に作成し、視覚関係学習の遠隔監視を可能にすることである。
遠方ラベルデータのノイズを軽減するために,確率的関係ラベルを反復的に推定し,ノイズを除去した枠組みを提案する。
総合実験の結果, 弱教師付きおよび半教師付きベースラインよりも遠隔教師付きモデルの方が優れていることがわかった。
人間のラベル付きデータを半教師付き形式でさらに組み込むことで、我々のモデルは最先端の完全教師付きモデルよりも大きなマージン(例えば、Visual Genome評価における述語分類のための8.6マイクロと7.6マクロリコール@50の改善)で優れている。
すべてのデータとコードは、将来の研究を促進するために利用可能になる。
関連論文リスト
- DisenSemi: Semi-supervised Graph Classification via Disentangled Representation Learning [36.85439684013268]
本研究では,半教師付きグラフ分類のための不整合表現を学習するDisenSemiという新しいフレームワークを提案する。
具体的には,非教師付きモデルと教師なしモデルの両方に対して因子ワイドグラフ表現を生成するために,非教師付きグラフエンコーダを提案する。
教師付き客観情報と相互情報(MI)に基づく制約によって2つのモデルを訓練する。
論文 参考訳(メタデータ) (2024-07-19T07:31:32Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Generated Graph Detection [27.591612297045817]
グラフ生成モデルは、データ分散近似とデータ拡張にますます効果的になる。
4つの分類シナリオにおいて、洗練されたモデルの集合とその性能を調査する最初のフレームワークを提案する。
私たちのソリューションは、生成されたグラフの誤用を抑制するのに十分な期間維持できます。
論文 参考訳(メタデータ) (2023-06-13T13:18:04Z) - A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。
セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文 参考訳(メタデータ) (2022-06-17T08:32:43Z) - Self-Supervised Learning as a Means To Reduce the Need for Labeled Data
in Medical Image Analysis [64.4093648042484]
胸部X線画像のデータセットとバウンディングボックスラベルを用いて,13種類の異常の分類を行った。
ラベル付きデータの平均精度と精度を60%に抑えることで,完全教師付きモデルと同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-06-01T09:20:30Z) - Biasing Like Human: A Cognitive Bias Framework for Scene Graph
Generation [20.435023745201878]
本稿では,視覚に基づく表現のガイダンスとして,人間がラベル言語の特徴をどのように取り入れるかをシミュレートする,新しい3パラダイムフレームワークを提案する。
私たちのフレームワークはどんなシーングラフモデルにも依存しません。
論文 参考訳(メタデータ) (2022-03-17T08:29:52Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Sub-graph Contrast for Scalable Self-Supervised Graph Representation
Learning [21.0019144298605]
既存のグラフニューラルネットワークは、計算量やメモリコストが限られているため、完全なグラフデータで供給される。
textscSubg-Conは、中央ノードとそのサンプルサブグラフ間の強い相関を利用して、地域構造情報をキャプチャすることで提案される。
既存のグラフ表現学習アプローチと比較して、textscSubg-Conは、より弱い監視要件、モデル学習のスケーラビリティ、並列化において、顕著なパフォーマンス上のアドバンテージを持っています。
論文 参考訳(メタデータ) (2020-09-22T01:58:19Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。