論文の概要: Context-based Deep Learning Architecture with Optimal Integration Layer
for Image Parsing
- arxiv url: http://arxiv.org/abs/2204.06214v1
- Date: Wed, 13 Apr 2022 07:35:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 21:24:54.901715
- Title: Context-based Deep Learning Architecture with Optimal Integration Layer
for Image Parsing
- Title(参考訳): 画像解析のための最適統合層を用いたコンテキストベースディープラーニングアーキテクチャ
- Authors: Ranju Mandal, Basim Azam, and Brijesh Verma
- Abstract要約: 提案した3層コンテキストベースディープアーキテクチャは、コンテキストを視覚情報と明示的に統合することができる。
ベンチマークデータセットで評価した場合の実験結果は有望である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models have been efficient lately on image parsing tasks.
However, deep learning models are not fully capable of exploiting visual and
contextual information simultaneously. The proposed three-layer context-based
deep architecture is capable of integrating context explicitly with visual
information. The novel idea here is to have a visual layer to learn visual
characteristics from binary class-based learners, a contextual layer to learn
context, and then an integration layer to learn from both via genetic
algorithm-based optimal fusion to produce a final decision. The experimental
outcomes when evaluated on benchmark datasets are promising. Further analysis
shows that optimized network weights can improve performance and make stable
predictions.
- Abstract(参考訳): ディープラーニングモデルは最近、画像解析タスクで効率的になっている。
しかし、ディープラーニングモデルは、視覚情報と文脈情報を同時に活用することができない。
提案した3層コンテキストベースディープアーキテクチャは、コンテキストを視覚情報と明示的に統合することができる。
ここでの新たなアイデアは、バイナリクラスベースの学習者から視覚的特徴を学習する視覚層、コンテキストを学習するコンテキスト層、そして遺伝的アルゴリズムベースの最適融合を通じて学習して最終的な決定を生成する統合層を持つことである。
ベンチマークデータセットで評価した場合の実験結果は有望である。
さらなる分析により、最適化されたネットワーク重みはパフォーマンスを改善し、安定した予測ができることが示された。
関連論文リスト
- Advanced Multimodal Deep Learning Architecture for Image-Text Matching [33.8315200009152]
画像テキストマッチングは、画像とテキスト間の意味的関連をマッチング関係としてモデル化することを目的とした、重要なマルチモーダルタスクである。
本稿では、視覚情報のための深層ニューラルネットワークの高レベル抽象表現能力と、テキスト意味理解のための自然言語処理モデルの利点を組み合わせた高度なマルチモーダルディープラーニングアーキテクチャを提案する。
実験の結果、既存の画像テキストマッチングモデルと比較して、最適化された新しいモデルは一連のベンチマークデータセットの性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-13T08:32:24Z) - SwinMTL: A Shared Architecture for Simultaneous Depth Estimation and Semantic Segmentation from Monocular Camera Images [4.269350826756809]
本研究では,一台のカメラを用いた同時深度推定とセマンティックセマンティックセグメンテーションが可能な,革新的なマルチタスク学習フレームワークを提案する。
提案手法は共有エンコーダデコーダアーキテクチャに基づいており,計算効率を損なうことなく,深度推定とセマンティックセグメンテーションタスクの精度を向上させるために様々な手法を統合する。
このフレームワークは、屋外のCityscapesデータセットと屋内のNYU Depth V2データセットという2つのデータセットで徹底的に評価されている。
論文 参考訳(メタデータ) (2024-03-15T20:04:27Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Deep Learning Model with GA based Feature Selection and Context
Integration [2.3472688456025756]
本稿では,視覚的特徴と並行して,グローバル・ローカル・コンテクスト情報と独立に同化・学習する3層深層学習モデルを提案する。
提案モデルの新規性は,視覚層に遺伝的アルゴリズム(GA)を最適化した特徴を学習するために,1-vs-Allバイナリクラスベースの学習者が導入されたことである。
グローバルおよびローカルなコンテキスト情報を備えた最適化された視覚機能は、精度を改善し、最先端の深層CNNモデルに匹敵する安定した予測を生成するために重要な役割を果たす。
論文 参考訳(メタデータ) (2022-04-13T06:28:41Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Exploiting Contextual Information with Deep Neural Networks [5.787117733071416]
文脈情報は、暗黙的かつ明示的な2つの根本的に異なる方法で活用できることを示します。
この論文では、文脈情報を2つの根本的に異なる方法で活用できることを示し、暗黙的かつ明示的に示す。
論文 参考訳(メタデータ) (2020-06-21T03:40:30Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z) - Towards Analysis-friendly Face Representation with Scalable Feature and
Texture Compression [113.30411004622508]
普遍的で協調的な視覚情報表現は階層的な方法で実現できることを示す。
ディープニューラルネットワークの強力な生成能力に基づいて、基本特徴層と強化層の間のギャップは、特徴レベルのテクスチャ再構築によってさらに埋められる。
提案するフレームワークの効率を改善するために,ベース層ニューラルネットワークをマルチタスクでトレーニングする。
論文 参考訳(メタデータ) (2020-04-21T14:32:49Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。