論文の概要: Image Annotation based on Deep Hierarchical Context Networks
- arxiv url: http://arxiv.org/abs/2012.11253v1
- Date: Mon, 21 Dec 2020 11:07:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:33:12.968378
- Title: Image Annotation based on Deep Hierarchical Context Networks
- Title(参考訳): 深い階層的コンテキストネットワークに基づく画像アノテーション
- Authors: Mingyuan Jiu and Hichem Sahbi
- Abstract要約: DHCN(Deep Hierarchical Context Network)を紹介する。
提案手法は、忠実性項と文脈基準と正規化子を混合する目的関数の最小化に基づいている。
この表現学習の問題を、パラメータが最も影響するバイレベルなコンテキスト関係に対応する深いネットワークをトレーニングすることで解決します。
- 参考スコア(独自算出の注目度): 17.665938343060112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context modeling is one of the most fertile subfields of visual recognition
which aims at designing discriminant image representations while incorporating
their intrinsic and extrinsic relationships. However, the potential of context
modeling is currently underexplored and most of the existing solutions are
either context-free or restricted to simple handcrafted geometric
relationships. We introduce in this paper DHCN: a novel Deep Hierarchical
Context Network that leverages different sources of contexts including
geometric and semantic relationships. The proposed method is based on the
minimization of an objective function mixing a fidelity term, a context
criterion and a regularizer. The solution of this objective function defines
the architecture of a bi-level hierarchical context network; the first level of
this network captures scene geometry while the second one corresponds to
semantic relationships. We solve this representation learning problem by
training its underlying deep network whose parameters correspond to the most
influencing bi-level contextual relationships and we evaluate its performances
on image annotation using the challenging ImageCLEF benchmark.
- Abstract(参考訳): コンテキストモデリングは視覚認識の最も豊かなサブフィールドの1つであり、内在的および外在的な関係を取り入れながら識別的な画像表現を設計することを目的としている。
しかしながら、現在、コンテキストモデリングの可能性は過小評価されており、既存のソリューションのほとんどはコンテキストフリーか単純な手作りの幾何学的関係に限定されている。
本稿では、幾何学的・意味的関係を含むさまざまな文脈源を利用する新しい階層型コンテキストネットワークDHCNを紹介する。
提案手法は、忠実性項と文脈基準と正規化子を混合する目的関数の最小化に基づいている。
この目的関数の解は、二レベル階層的コンテキストネットワークのアーキテクチャを定義し、このネットワークの第1レベルはシーンの幾何学を捉え、第2レベルは意味的関係に対応する。
本研究では,二レベル文脈関係に最も影響を与えやすいパラメータを持つ深層ネットワークをトレーニングすることで,この表現学習問題を解決し,挑戦的imageclefベンチマークを用いて画像アノテーションの性能評価を行う。
関連論文リスト
- Self-Supervised Image-to-Text and Text-to-Image Synthesis [23.587581181330123]
クロスモーダルな埋め込み空間を学習するための,新たな自己教師型深層学習手法を提案する。
そこで本研究では,まず,StackGANベースのオートエンコーダモデルを用いて画像の高密度ベクトル表現と,LSTMベースのテキストオートエンコーダを用いた文レベルでの高密度ベクトル表現を得る。
論文 参考訳(メタデータ) (2021-12-09T13:54:56Z) - A Unified Architecture of Semantic Segmentation and Hierarchical
Generative Adversarial Networks for Expression Manipulation [52.911307452212256]
セマンティックセグメンテーションと階層的GANの統一アーキテクチャを開発する。
我々のフレームワークのユニークな利点は、将来的なセマンティックセグメンテーションネットワーク条件を生成モデルに渡すことである。
我々は,AffectNetとRaFDの2つの難解な表情翻訳ベンチマークとセマンティックセグメンテーションベンチマークであるCelebAMask-HQについて評価を行った。
論文 参考訳(メタデータ) (2021-12-08T22:06:31Z) - Transformer-based Dual Relation Graph for Multi-label Image Recognition [56.12543717723385]
本稿では,トランスフォーマーをベースとしたデュアルリレーショナル学習フレームワークを提案する。
相関の2つの側面、すなわち構造関係グラフと意味関係グラフについて検討する。
提案手法は,2つのポピュラーなマルチラベル認識ベンチマークにおいて,最先端性を実現する。
論文 参考訳(メタデータ) (2021-10-10T07:14:52Z) - Image Synthesis via Semantic Composition [74.68191130898805]
本稿では,その意味的レイアウトに基づいて現実的なイメージを合成する新しい手法を提案する。
類似した外観を持つ物体に対して、類似した表現を共有するという仮説が立てられている。
本手法は, 空間的変化と関連表現の両方を生じる, 外観相関による領域間の依存関係を確立する。
論文 参考訳(メタデータ) (2021-09-15T02:26:07Z) - Step-Wise Hierarchical Alignment Network for Image-Text Matching [29.07229472373576]
画像テキストマッチングを多段階のクロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(SHAN)を提案する。
具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行し,フラグメントレベルでローカル・ローカル・アライメントを実現する。
論文 参考訳(メタデータ) (2021-06-11T17:05:56Z) - Hierarchical Pyramid Representations for Semantic Segmentation [0.0]
コンテキストはこれらの固有の特性に基づいているため、オブジェクトの構造とオブジェクト間の階層構造を学ぶ。
本研究では,新しい階層的,文脈的,マルチスケールのピラミッド表現を設計し,入力画像から特徴を捉える。
提案手法はPASCALコンテキストにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-05T06:39:12Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z) - SOSD-Net: Joint Semantic Object Segmentation and Depth Estimation from
Monocular images [94.36401543589523]
これら2つのタスクの幾何学的関係を利用するための意味的対象性の概念を紹介します。
次に, 対象性仮定に基づくセマンティックオブジェクト・深さ推定ネットワーク(SOSD-Net)を提案する。
私たちの知識を最大限に活用するために、SOSD-Netは同時単眼深度推定とセマンティックセグメンテーションのためのジオメトリ制約を利用する最初のネットワークです。
論文 参考訳(メタデータ) (2021-01-19T02:41:03Z) - Tensor Composition Net for Visual Relationship Prediction [115.14829858763399]
画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。
TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。
本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
論文 参考訳(メタデータ) (2020-12-10T06:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。