論文の概要: Deep Learning to See: Towards New Foundations of Computer Vision
- arxiv url: http://arxiv.org/abs/2206.15351v1
- Date: Thu, 30 Jun 2022 15:20:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 14:43:15.470356
- Title: Deep Learning to See: Towards New Foundations of Computer Vision
- Title(参考訳): Deep Learning to See: コンピュータビジョンの新たな基盤を目指して
- Authors: Alessandro Betti, Marco Gori, Stefano Melacci
- Abstract要約: この本はコンピュータビジョンの分野における科学的進歩を批判している。
情報に基づく自然法則の枠組みにおける視覚の研究を提案する。
- 参考スコア(独自算出の注目度): 88.69805848302266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable progress in computer vision over the last few years is, by and
large, attributed to deep learning, fueled by the availability of huge sets of
labeled data, and paired with the explosive growth of the GPU paradigm. While
subscribing to this view, this book criticizes the supposed scientific progress
in the field and proposes the investigation of vision within the framework of
information-based laws of nature. Specifically, the present work poses
fundamental questions about vision that remain far from understood, leading the
reader on a journey populated by novel challenges resonating with the
foundations of machine learning. The central thesis is that for a deeper
understanding of visual computational processes, it is necessary to look beyond
the applications of general purpose machine learning algorithms and focus
instead on appropriate learning theories that take into account the
spatiotemporal nature of the visual signal.
- Abstract(参考訳): ここ数年のコンピュータビジョンの目覚ましい進歩は、ディープラーニングによるもので、ラベル付きデータの巨大なセットが利用可能であることと、GPUパラダイムの爆発的な成長との組み合わせによるものだ。
この見解に賛同しながら、本書はこの分野の科学的進歩を批判し、情報に基づく自然法則の枠組みにおけるビジョンの調査を提案する。
具体的には、本研究は、まだ理解されていないビジョンに関する根本的な疑問を提起し、読者は機械学習の基礎と調和する新しい課題に満ちた旅にたどり着く。
中心となるテーマは、視覚計算プロセスのより深い理解のためには、汎用機械学習アルゴリズムの応用を超えて、視覚信号の時空間的性質を考慮した適切な学習理論に焦点をあてる必要があるということである。
関連論文リスト
- Visual Knowledge in the Big Model Era: Retrospect and Prospect [63.282425615863]
視覚知識は、視覚概念とその関係を簡潔で包括的で解釈可能な方法でカプセル化できる新しい知識表現である。
視覚世界に関する知識は、人間の認知と知性にとって欠かせない要素として認識されているため、視覚知識は、機械知性を確立する上で重要な役割を担っていると考えられる。
論文 参考訳(メタデータ) (2024-04-05T07:31:24Z) - Integration and Performance Analysis of Artificial Intelligence and
Computer Vision Based on Deep Learning Algorithms [5.734290974917728]
本稿では,ディープラーニングとコンピュータビジョン技術の統合による応用効果の分析に焦点をあてる。
ディープラーニングは階層型ニューラルネットワークを構築することで歴史的なブレークスルーを実現し、エンドツーエンドの機能学習と画像の意味的理解を可能にする。
コンピュータビジョンの分野で成功した経験は、ディープラーニングアルゴリズムのトレーニングに強力なサポートを提供する。
論文 参考訳(メタデータ) (2023-12-20T09:37:06Z) - Physics-Informed Computer Vision: A Review and Perspectives [22.71741766133866]
機械学習フレームワークに物理情報の組み入れが、多くのアプリケーションドメインを開放し、変換している。
本稿では,250以上の物理法則によるコンピュータビジョンタスクの定式化とアプローチに関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-05-29T11:55:11Z) - Hyperbolic Deep Learning in Computer Vision: A Survey [20.811974050049365]
双曲空間は コンピュータビジョンの学習で 急速に勢いを増しています
コンピュータビジョンのための双曲学習に関する現在の文献の分類と詳細な概要を提供する。
我々は,すべてのテーマにおいて双曲学習がどのように実行されるのかを概説し,コンピュータビジョンにおける双曲学習の現在の進歩の恩恵を受ける主要な研究課題について論じる。
論文 参考訳(メタデータ) (2023-05-11T07:14:23Z) - VQA and Visual Reasoning: An Overview of Recent Datasets, Methods and
Challenges [1.565870461096057]
この結果、視覚と言語の統合が多くの注目を集めた。
タスクは、深層学習の概念を適切に実証するための方法で作られています。
論文 参考訳(メタデータ) (2022-12-26T20:56:01Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - Visual Sensation and Perception Computational Models for Deep Learning:
State of the art, Challenges and Prospects [7.949330621850412]
視覚感覚と知覚は、環境認識と理解において視覚情報を検知し、整理し、識別し、解釈する過程を指す。
視覚知覚にインスパイアされた計算モデルは、認知科学、情報科学、人工知能など多くの分野から生まれた複雑さと多様性の特徴を持つ。
論文 参考訳(メタデータ) (2021-09-08T01:51:24Z) - Threat of Adversarial Attacks on Deep Learning in Computer Vision:
Survey II [86.51135909513047]
ディープラーニングは、予測を操作できる敵攻撃に対して脆弱である。
本稿では,ディープラーニングに対する敵対的攻撃におけるコンピュータビジョンコミュニティの貢献を概観する。
この領域では、非専門家に技術的な用語の定義を提供する。
論文 参考訳(メタデータ) (2021-08-01T08:54:47Z) - Tensor Methods in Computer Vision and Deep Learning [120.3881619902096]
テンソル(tensor)は、複数の次元の視覚データを自然に表現できるデータ構造である。
コンピュータビジョンにおけるディープラーニングパラダイムシフトの出現により、テンソルはさらに基本的なものになっている。
本稿では,表現学習と深層学習の文脈において,テンソルとテンソル法を深く,実践的に検討する。
論文 参考訳(メタデータ) (2021-07-07T18:42:45Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。