論文の概要: Image Annotation based on Deep Hierarchical Context Networks
- arxiv url: http://arxiv.org/abs/2012.11253v1
- Date: Mon, 21 Dec 2020 11:07:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:33:12.968378
- Title: Image Annotation based on Deep Hierarchical Context Networks
- Title(参考訳): 深い階層的コンテキストネットワークに基づく画像アノテーション
- Authors: Mingyuan Jiu and Hichem Sahbi
- Abstract要約: DHCN(Deep Hierarchical Context Network)を紹介する。
提案手法は、忠実性項と文脈基準と正規化子を混合する目的関数の最小化に基づいている。
この表現学習の問題を、パラメータが最も影響するバイレベルなコンテキスト関係に対応する深いネットワークをトレーニングすることで解決します。
- 参考スコア(独自算出の注目度): 17.665938343060112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context modeling is one of the most fertile subfields of visual recognition
which aims at designing discriminant image representations while incorporating
their intrinsic and extrinsic relationships. However, the potential of context
modeling is currently underexplored and most of the existing solutions are
either context-free or restricted to simple handcrafted geometric
relationships. We introduce in this paper DHCN: a novel Deep Hierarchical
Context Network that leverages different sources of contexts including
geometric and semantic relationships. The proposed method is based on the
minimization of an objective function mixing a fidelity term, a context
criterion and a regularizer. The solution of this objective function defines
the architecture of a bi-level hierarchical context network; the first level of
this network captures scene geometry while the second one corresponds to
semantic relationships. We solve this representation learning problem by
training its underlying deep network whose parameters correspond to the most
influencing bi-level contextual relationships and we evaluate its performances
on image annotation using the challenging ImageCLEF benchmark.
- Abstract(参考訳): コンテキストモデリングは視覚認識の最も豊かなサブフィールドの1つであり、内在的および外在的な関係を取り入れながら識別的な画像表現を設計することを目的としている。
しかしながら、現在、コンテキストモデリングの可能性は過小評価されており、既存のソリューションのほとんどはコンテキストフリーか単純な手作りの幾何学的関係に限定されている。
本稿では、幾何学的・意味的関係を含むさまざまな文脈源を利用する新しい階層型コンテキストネットワークDHCNを紹介する。
提案手法は、忠実性項と文脈基準と正規化子を混合する目的関数の最小化に基づいている。
この目的関数の解は、二レベル階層的コンテキストネットワークのアーキテクチャを定義し、このネットワークの第1レベルはシーンの幾何学を捉え、第2レベルは意味的関係に対応する。
本研究では,二レベル文脈関係に最も影響を与えやすいパラメータを持つ深層ネットワークをトレーニングすることで,この表現学習問題を解決し,挑戦的imageclefベンチマークを用いて画像アノテーションの性能評価を行う。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Hire: Hybrid-modal Interaction with Multiple Relational Enhancements for Image-Text Matching [7.7559623054251]
画像テキストマッチング(ITM)はコンピュータビジョンの基本的な問題である。
画像テキストマッチングのためのマルチエンハンスメント(termed textitHire)を用いたハイブリッドモーダル機能を提案する。
特に、明示的なモーダル空間意味グラフに基づく推論ネットワークは、視覚オブジェクトの文脈表現を改善するために設計されている。
論文 参考訳(メタデータ) (2024-06-05T13:10:55Z) - Grounding Scene Graphs on Natural Images via Visio-Lingual Message
Passing [17.63475613154152]
本稿では,シーングラフの特定の意味的関係制約に従うオブジェクトを協調的にグラウンド化するためのフレームワークを提案する。
シーングラフは、画像内のすべてのオブジェクトとその意味的関係を表現するための効率的で構造化された方法である。
論文 参考訳(メタデータ) (2022-11-03T16:46:46Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - A Unified Architecture of Semantic Segmentation and Hierarchical
Generative Adversarial Networks for Expression Manipulation [52.911307452212256]
セマンティックセグメンテーションと階層的GANの統一アーキテクチャを開発する。
我々のフレームワークのユニークな利点は、将来的なセマンティックセグメンテーションネットワーク条件を生成モデルに渡すことである。
我々は,AffectNetとRaFDの2つの難解な表情翻訳ベンチマークとセマンティックセグメンテーションベンチマークであるCelebAMask-HQについて評価を行った。
論文 参考訳(メタデータ) (2021-12-08T22:06:31Z) - SOSD-Net: Joint Semantic Object Segmentation and Depth Estimation from
Monocular images [94.36401543589523]
これら2つのタスクの幾何学的関係を利用するための意味的対象性の概念を紹介します。
次に, 対象性仮定に基づくセマンティックオブジェクト・深さ推定ネットワーク(SOSD-Net)を提案する。
私たちの知識を最大限に活用するために、SOSD-Netは同時単眼深度推定とセマンティックセグメンテーションのためのジオメトリ制約を利用する最初のネットワークです。
論文 参考訳(メタデータ) (2021-01-19T02:41:03Z) - Bidirectional Graph Reasoning Network for Panoptic Segmentation [126.06251745669107]
本稿では,BGRNet(Bidirectional Graph Reasoning Network)を導入し,前景物と背景物間のモジュラー内およびモジュラー間関係について検討する。
BGRNetはまず、インスタンスとセマンティックセグメンテーションの両方でイメージ固有のグラフを構築し、提案レベルとクラスレベルで柔軟な推論を可能にする。
論文 参考訳(メタデータ) (2020-04-14T02:32:10Z) - Shallow2Deep: Indoor Scene Modeling by Single Image Understanding [42.87957414916607]
本稿では,ニューラルネットワークの深い特徴を用いた屋内シーンの自動モデリング手法を提案する。
一つのRGB画像が与えられた場合,本手法は同時に意味内容,3次元幾何学,オブジェクト関係を復元する。
論文 参考訳(メタデータ) (2020-02-22T23:27:22Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z) - Deep Context-Aware Kernel Networks [15.99072005190786]
本稿では,カーネル設計におけるコンテキストを学習する新しいディープネットワークアーキテクチャを提案する。
実験の結果, 深層文脈ネットワークは画像分類に極めて有効であり, 学習コンテキストは画像アノテーションの性能をさらに向上させることがわかった。
論文 参考訳(メタデータ) (2019-12-29T21:18:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。