論文の概要: Scene Graph Generation via Conditional Random Fields
- arxiv url: http://arxiv.org/abs/1811.08075v2
- Date: Tue, 23 Jan 2024 19:16:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 18:27:40.450365
- Title: Scene Graph Generation via Conditional Random Fields
- Title(参考訳): 条件付きランダムフィールドによるシーングラフ生成
- Authors: Weilin Cong, William Wang, Wang-Chien Lee
- Abstract要約: 画像中のオブジェクトのインスタンスとその対応する関係を予測するための新しいシーングラフ生成モデルを提案する。
我々のモデルであるSG-CRFは、関係3重項における対象と対象の逐次順序と、シーングラフにおけるオブジェクトノードインスタンスと関係ノードのセマンティック互換性を効率よく学習する。
- 参考スコア(独自算出の注目度): 14.282277071380447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the great success object detection and segmentation models have
achieved in recognizing individual objects in images, performance on cognitive
tasks such as image caption, semantic image retrieval, and visual QA is far
from satisfactory. To achieve better performance on these cognitive tasks,
merely recognizing individual object instances is insufficient. Instead, the
interactions between object instances need to be captured in order to
facilitate reasoning and understanding of the visual scenes in an image. Scene
graph, a graph representation of images that captures object instances and
their relationships, offers a comprehensive understanding of an image. However,
existing techniques on scene graph generation fail to distinguish subjects and
objects in the visual scenes of images and thus do not perform well with
real-world datasets where exist ambiguous object instances. In this work, we
propose a novel scene graph generation model for predicting object instances
and its corresponding relationships in an image. Our model, SG-CRF, learns the
sequential order of subject and object in a relationship triplet, and the
semantic compatibility of object instance nodes and relationship nodes in a
scene graph efficiently. Experiments empirically show that SG-CRF outperforms
the state-of-the-art methods, on three different datasets, i.e., CLEVR, VRD,
and Visual Genome, raising the Recall@100 from 24.99% to 49.95%, from 41.92% to
50.47%, and from 54.69% to 54.77%, respectively.
- Abstract(参考訳): 画像中の個々の物体の認識にオブジェクト検出とセグメンテーションモデルが大きな成功を収めたにもかかわらず、画像キャプション、セマンティックイメージ検索、視覚的QAといった認知タスクのパフォーマンスは満足できない。
これらの認知タスクでより良いパフォーマンスを達成するには、個々のオブジェクトインスタンスを認識するだけでは不十分である。
その代わり、画像内の視覚的なシーンの推論と理解を容易にするために、オブジェクトインスタンス間のインタラクションをキャプチャする必要がある。
Scene graphは、オブジェクトインスタンスとその関係をキャプチャする画像のグラフ表現であり、画像の包括的な理解を提供する。
しかし、シーングラフ生成の既存の技術では、画像の視覚的なシーンにおける主題やオブジェクトの識別に失敗し、曖昧なオブジェクトインスタンスが存在する現実世界のデータセットではうまく動作しない。
本研究では,画像中のオブジェクトインスタンスとその関連関係を予測するための新しいシーングラフ生成モデルを提案する。
我々のモデルであるSG-CRFは、関係3重項における対象と対象の逐次順序と、シーングラフにおけるオブジェクトインスタンスノードと関係ノードのセマンティック互換性を効率よく学習する。
実験によれば、sg-crfは3つの異なるデータセット、すなわちclevr、vrd、visual genomeで最先端の手法よりも優れており、recall@100は24.99%から49.95%、41.92%から50.47%、54.69%から54.77%に上昇している。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - Complex Scene Image Editing by Scene Graph Comprehension [17.72638225034884]
シーングラフ(SGC-Net)による複雑なシーン画像編集を実現するための2段階手法を提案する。
第1段階では,シーングラフを用いた関心領域予測ネットワークを訓練し,対象物体の位置を推定する。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
論文 参考訳(メタデータ) (2022-03-24T05:12:54Z) - SGMNet: Scene Graph Matching Network for Few-Shot Remote Sensing Scene
Classification [14.016637774748677]
Few-Shot Remote Sensing Scene Classification (FSRSSC) は,新しいシーンクラスを少数の例で認識することを目的とした重要な課題である。
SGMNetと呼ばれるFSRSSCのための新しいシーングラフマッチングに基づくメタラーニングフレームワークを提案する。
UCMerced LandUse, WHU19, AID, NWPU-RESISC45データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-10-09T07:43:40Z) - Scene Graph Generation for Better Image Captioning? [48.411957217304]
検出されたオブジェクトと自動生成された視覚的関係を利用して、自然言語で画像を記述するモデルを提案する。
我々は、個々のオブジェクトとそれらの間の視覚的関係を識別することにより、生画像画素からシーングラフを生成する。
このシーングラフは、最後のキャプションを生成するグラフからテキストへのモデルへの入力として機能します。
論文 参考訳(メタデータ) (2021-09-23T14:35:11Z) - Scenes and Surroundings: Scene Graph Generation using Relation
Transformer [13.146732454123326]
この研究は、リレーショナルトランスと呼ばれる新しいローカルコンテキスト対応アーキテクチャを提案する。
階層的マルチヘッドアテンションに基づくアプローチは、オブジェクト間のコンテキスト依存を効率的に捕捉し、それらの関係を予測する。
最先端のアプローチと比較して、私たちは全体として、textbf4.85%の改善を達成しました。
論文 参考訳(メタデータ) (2021-07-12T14:22:20Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。