論文の概要: Deriving Visual Semantics from Spatial Context: An Adaptation of LSA and
Word2Vec to generate Object and Scene Embeddings from Images
- arxiv url: http://arxiv.org/abs/2009.09384v1
- Date: Sun, 20 Sep 2020 08:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 12:43:28.113238
- Title: Deriving Visual Semantics from Spatial Context: An Adaptation of LSA and
Word2Vec to generate Object and Scene Embeddings from Images
- Title(参考訳): 空間文脈からの視覚意味論の導出:画像から物体とシーンの埋め込みを生成するためのLSAとWord2Vecの適応
- Authors: Matthias S. Treder, Juan Mayor-Torres, Christoph Teufel
- Abstract要約: 我々は、注釈付き画像からオブジェクトとシーンの埋め込みを学習するための2つのアプローチを開発した。
最初のアプローチでは、画像全体におけるオブジェクトの共起から、オブジェクトのためのもの、シーンのためのものへの埋め込みを生成する。
第2のアプローチでは、シーンの全体像を分析する代わりに、画像のサブリージョン内のオブジェクトの共起に焦点をあてる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embeddings are an important tool for the representation of word meaning.
Their effectiveness rests on the distributional hypothesis: words that occur in
the same context carry similar semantic information. Here, we adapt this
approach to index visual semantics in images of scenes. To this end, we
formulate a distributional hypothesis for objects and scenes: Scenes that
contain the same objects (object context) are semantically related. Similarly,
objects that appear in the same spatial context (within a scene or subregions
of a scene) are semantically related. We develop two approaches for learning
object and scene embeddings from annotated images. In the first approach, we
adapt LSA and Word2vec's Skipgram and CBOW models to generate two sets of
embeddings from object co-occurrences in whole images, one for objects and one
for scenes. The representational space spanned by these embeddings suggests
that the distributional hypothesis holds for images. In an initial application
of this approach, we show that our image-based embeddings improve scene
classification models such as ResNet18 and VGG-11 (3.72\% improvement on Top5
accuracy, 4.56\% improvement on Top1 accuracy). In the second approach, rather
than analyzing whole images of scenes, we focus on co-occurrences of objects
within subregions of an image. We illustrate that this method yields a sensible
hierarchical decomposition of a scene into collections of semantically related
objects. Overall, these results suggest that object and scene embeddings from
object co-occurrences and spatial context yield semantically meaningful
representations as well as computational improvements for downstream
applications such as scene classification.
- Abstract(参考訳): 埋め込みは単語の意味を表現する重要なツールである。
それらの効果は分布仮説に依拠する:同じ文脈で起こる単語は同様の意味情報を持っている。
本稿では,シーン画像の視覚的セマンティクスを指標とした手法を提案する。
この目的のために、同じオブジェクト(オブジェクトコンテキスト)を含むシーンが意味的に関連しているオブジェクトとシーンの分布仮説を定式化する。
同様に、同じ空間的文脈(シーンまたはシーンのサブリージョン内)に現れるオブジェクトは意味的に関連づけられる。
アノテーション付き画像からオブジェクトとシーンの埋め込みを学習するための2つのアプローチを開発した。
最初のアプローチでは,LSA と Word2vec の Skipgram と CBOW のモデルを用いて,画像全体へのオブジェクト共起から2組の埋め込みを生成する。
これらの埋め込みによって広がる表現空間は、分布仮説が像に対して成り立つことを示唆する。
このアプローチの最初の応用において、画像ベース埋め込みはresnet18やvgg-11のようなシーン分類モデル(top5精度では72\%、top1精度では4.56\%改善)を改善していることを示した。
第2のアプローチでは、シーンの全体像を分析する代わりに、画像のサブリージョン内のオブジェクトの共起に焦点を当てる。
本手法は,シーンの階層的な階層的分解を意味的関連のあるオブジェクトの集合に生成することを示す。
これらの結果から,オブジェクトの共起や空間コンテキストからのオブジェクトとシーンの埋め込みが意味的に意味のある表現をもたらすことが示唆され,シーン分類などの下流アプリケーションに対する計算精度が向上することが示唆された。
関連論文リスト
- ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - Describing Sets of Images with Textual-PCA [89.46499914148993]
画像の集合を意味的に記述し、単一の画像の属性とセット内のバリエーションの両方をキャプチャする。
我々の手順は原理成分分析と類似しており、射影ベクトルの役割を生成されたフレーズに置き換える。
論文 参考訳(メタデータ) (2022-10-21T17:10:49Z) - Natural Scene Image Annotation Using Local Semantic Concepts and Spatial
Bag of Visual Words [0.0]
本稿では,事前に定義された語彙から局所的な意味ラベルを付加した自然なシーン画像の自動アノテーションフレームワークを提案する。
このフレームワークは、自然な場面では、中間的な意味概念が局所的なキーポイントと相関していると仮定する仮説に基づいている。
この仮説に基づいて、画像領域をBOWモデルで効率よく表現し、SVMのような機械学習アプローチを使用して、セマンティックアノテーションで画像領域をラベル付けすることができる。
論文 参考訳(メタデータ) (2022-10-17T12:57:51Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Complex Scene Image Editing by Scene Graph Comprehension [17.72638225034884]
シーングラフ(SGC-Net)による複雑なシーン画像編集を実現するための2段階手法を提案する。
第1段階では,シーングラフを用いた関心領域予測ネットワークを訓練し,対象物体の位置を推定する。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
論文 参考訳(メタデータ) (2022-03-24T05:12:54Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。