論文の概要: Image Semantic Relation Generation
- arxiv url: http://arxiv.org/abs/2210.11253v1
- Date: Wed, 19 Oct 2022 16:15:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 13:40:25.526116
- Title: Image Semantic Relation Generation
- Title(参考訳): 画像意味関係生成
- Authors: Mingzhe Du
- Abstract要約: シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene graphs provide structured semantic understanding beyond images. For
downstream tasks, such as image retrieval, visual question answering, visual
relationship detection, and even autonomous vehicle technology, scene graphs
can not only distil complex image information but also correct the bias of
visual models using semantic-level relations, which has broad application
prospects. However, the heavy labour cost of constructing graph annotations may
hinder the application of PSG in practical scenarios. Inspired by the
observation that people usually identify the subject and object first and then
determine the relationship between them, we proposed to decouple the scene
graphs generation task into two sub-tasks: 1) an image segmentation task to
pick up the qualified objects. 2) a restricted auto-regressive text generation
task to generate the relation between given objects. Therefore, in this work,
we introduce image semantic relation generation (ISRG), a simple but effective
image-to-text model, which achieved 31 points on the OpenPSG dataset and
outperforms strong baselines respectively by 16 points (ResNet-50) and 5 points
(CLIP).
- Abstract(参考訳): シーングラフはイメージを超えて構造化された意味理解を提供する。
画像検索、視覚的質問応答、視覚関係検出、さらには自動運転車技術のような下流タスクでは、シーングラフは複雑な画像情報を分解するだけでなく、幅広い応用可能性を持つセマンティックレベル関係を用いて視覚モデルのバイアスを補正することができる。
しかし,グラフアノテーションの構築に要する作業コストは,実用的なシナリオではpsgの適用を阻害する可能性がある。
被験者とオブジェクトを最初に識別し、それらの関係を決定するという観察から着想を得て、シーングラフ生成タスクを2つのサブタスクに分離する提案を行った。
1) 資格のあるオブジェクトをピックアップする画像分割タスク。
2)対象オブジェクト間の関係を生成するための制約付き自動回帰テキスト生成タスク。
そこで本研究では,openpsgデータセット上で31点を達成し,それぞれ16点 (resnet-50) と5点 (clip) の強いベースラインを上回る,単純かつ効果的な画像対テキストモデルであるイメージセマンティクス関係生成(isrg)を提案する。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient
Scene Graph Generation [0.7851536646859476]
本稿では,関連性の生成を優先するSGG(Efficient Scene Graph Generation)の課題を紹介する。
我々は、人気のあるVisual Genomeデータセットのアノテーションに基づいて、新しいデータセットVG150をキュレートする。
我々は、このデータセットが通常SGGで使用されるものよりも高品質で多様なアノテーションを含んでいることを示す一連の実験を通して示す。
論文 参考訳(メタデータ) (2023-05-30T00:55:49Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Grounding Scene Graphs on Natural Images via Visio-Lingual Message
Passing [17.63475613154152]
本稿では,シーングラフの特定の意味的関係制約に従うオブジェクトを協調的にグラウンド化するためのフレームワークを提案する。
シーングラフは、画像内のすべてのオブジェクトとその意味的関係を表現するための効率的で構造化された方法である。
論文 参考訳(メタデータ) (2022-11-03T16:46:46Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z) - A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval [4.159666152160874]
シーングラフの提示は画像テキストマッチングの課題に適した方法である。
本稿では,最先端の手法を強化するローカル・グローバル・シーングラフマッチング(LGSGM)モデルを提案する。
Flickr30kデータセットのリコールを10%以上増やすことで,レベルの組み合わせによる改善により,ベースライン手法の性能を向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T10:33:14Z) - Segmentation-grounded Scene Graph Generation [47.34166260639392]
ピクセルレベルセグメンテーションに基づくシーングラフ生成のためのフレームワークを提案する。
私たちのフレームワークは、基盤となるシーングラフ生成方法に無知です。
ターゲットデータセットと補助データセットの両方でマルチタスクで学習される。
論文 参考訳(メタデータ) (2021-04-29T08:54:08Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。