Fugu-MT 論文翻訳(概要): Deep learning for scene recognition from visual data: a survey

論文の概要: Deep learning for scene recognition from visual data: a survey

arxiv url: http://arxiv.org/abs/2007.01806v1
Date: Fri, 3 Jul 2020 16:53:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-14 05:46:26.930352
Title: Deep learning for scene recognition from visual data: a survey
Title（参考訳）: 視覚データを用いたシーン認識のためのディープラーニング:調査
Authors: Alina Matei, Andreea Glavan, and Estefania Talavera
Abstract要約: この研究は、視覚データから深層学習モデルを用いて、シーン認識における最先端の技術をレビューすることを目的としている。シーン認識は依然としてコンピュータビジョンの新たな分野であり、単一の画像と動的な画像の観点から対処されてきた。
参考スコア（独自算出の注目度）: 2.580765958706854
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The use of deep learning techniques has exploded during the last few years, resulting in a direct contribution to the field of artificial intelligence. This work aims to be a review of the state-of-the-art in scene recognition with deep learning models from visual data. Scene recognition is still an emerging field in computer vision, which has been addressed from a single image and dynamic image perspective. We first give an overview of available datasets for image and video scene recognition. Later, we describe ensemble techniques introduced by research papers in the field. Finally, we give some remarks on our findings and discuss what we consider challenges in the field and future lines of research. This paper aims to be a future guide for model selection for the task of scene recognition.
Abstract（参考訳）: ディープラーニング技術の使用はここ数年で爆発的に増加し、人工知能の分野に直接貢献している。本研究は,視覚データを用いたディープラーニングモデルを用いたシーン認識における最先端技術の検討を目的とする。シーン認識はコンピュータビジョンの新たな分野であり、単一の画像と動的画像の視点から対処されている。まず、画像と映像のシーン認識のためのデータセットの概要を示す。その後,この分野の研究論文で紹介されたアンサンブル技法について述べる。最後に,本研究の成果について述べるとともに,今後の研究分野における課題について考察する。本稿では,シーン認識タスクのためのモデル選択のための将来のガイドとなることを目的とする。

関連論文リスト

Knowledge-Guided Prompt Learning for Deepfake Facial Image Detection [54.26588902144298]
ディープフェイク顔画像検出のための知識誘導型プロンプト学習法を提案する。具体的には、学習可能なプロンプトの最適化を導くための専門家知識として、大規模言語モデルから偽造関連プロンプトを抽出する。提案手法は最先端の手法よりも優れている。
論文参考訳（メタデータ） (2025-01-01T02:18:18Z)
Towards Visual Grounding: A Survey [99.0950608237702]
Referring Expression や Phrase Grounding としても知られる Visual Grounding は、与えられた式テキストに基づいてイメージ内の特定の領域をグラウンドすることを目的としている。 2021年以降、視覚的な接地は大幅に進歩し、接地事前訓練のような新しい概念が生まれている。本稿では,視覚的グラウンドリングの分野で現在利用可能な,最も包括的な概要を示す。
論文参考訳（メタデータ） (2024-12-28T16:34:35Z)
Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-04-16T18:15:57Z)
Knowledge-enhanced Multi-perspective Video Representation Learning for Scene Recognition [33.800842679024164]
我々は,映像シーン認識の課題に対処し,高レベルの映像表現を学習して映像シーンを分類することを目的とする。既存の作品の多くは、時間的視点で視覚情報やテキスト情報のみからビデオのシーンを識別している。複数の視点から映像表現をモデル化する新しい2ストリームフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-09T04:37:10Z)
Vision-Language Pre-training: Basics, Recent Advances, and Future Trends [158.34830433299268]
近年,マルチモーダルインテリジェンスのための視覚言語事前学習法が開発されている。各カテゴリについて、最先端の手法の総合的なレビューを行い、現在進行中の進歩と課題について論じる。また,研究コミュニティにおいて,大規模基盤モデル,統合モデリング,文脈内数発の学習,知識,堅牢性,コンピュータビジョンなど,高度なトピックが積極的に検討されていることについても論じる。
論文参考訳（メタデータ） (2022-10-17T17:11:36Z)
Deep Learning for Visual Speech Analysis: A Survey [54.53032361204449]
本稿では,視覚音声分析におけるディープラーニング手法の最近の進歩を概観する。私たちは、基本的な問題、課題、ベンチマークデータセット、既存のメソッドの分類、最先端のパフォーマンスなど、視覚音声のさまざまな側面をカバーしています。
論文参考訳（メタデータ） (2022-05-22T14:44:53Z)
Compositional Scene Representation Learning via Reconstruction: A Survey [48.33349317481124]
構成シーン表現学習はそのような能力を実現するタスクである。ディープニューラルネットワークは表現学習において有利であることが証明されている。大量のラベルのないデータを使用し、費用がかかるデータアノテーションを避けることができるため、再構築による学習は有利である。
論文参考訳（メタデータ） (2022-02-15T02:14:05Z)
Deep Learning for Scene Classification: A Survey [48.57123373347695]
シーン分類は、コンピュータビジョンにおける長年の、根本的かつ挑戦的な問題である。大規模データセットの出現と深層学習技術のルネッサンスは、シーン表現と分類の分野において顕著な進歩をもたらした。本稿では,深層学習によるシーン分類における最近の成果を総合的に調査する。
論文参考訳（メタデータ） (2021-01-26T03:06:50Z)
Visual Relationship Detection using Scene Graphs: A Survey [1.3505077405741583]
シーングラフ(Scene Graph)は、シーンとその中のさまざまな関係をよりよく表現するためのテクニックである。本稿では、シーングラフ生成の様々な技術、視覚的関係を表現するための有効性、下流の様々な課題の解決にどのように使われているかについて、詳細な調査を行う。
論文参考訳（メタデータ） (2020-05-16T17:06:06Z)
Text Recognition in the Wild: A Survey [33.22076515689926]
本論文は,シーンテキスト認識の分野の全体像を提示する試みである。この分野に参入する人々に対する包括的なリファレンスを提供しており、将来の研究を刺激するのに役立ちます。
論文参考訳（メタデータ） (2020-05-07T13:57:04Z)
Image Segmentation Using Deep Learning: A Survey [58.37211170954998]
イメージセグメンテーションは、画像処理とコンピュータビジョンにおいて重要なトピックである。深層学習モデルを用いた画像セグメンテーション手法の開発を目的とした研究が,これまでに数多く行われている。
論文参考訳（メタデータ） (2020-01-15T21:37:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。