論文の概要: Visual Knowledge in the Big Model Era: Retrospect and Prospect
- arxiv url: http://arxiv.org/abs/2404.04308v1
- Date: Fri, 5 Apr 2024 07:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 23:37:10.663576
- Title: Visual Knowledge in the Big Model Era: Retrospect and Prospect
- Title(参考訳): ビッグモデル時代の視覚的知識 : 振り返りと展望
- Authors: Wenguan Wang, Yi Yang, Yunhe Pan,
- Abstract要約: 視覚知識は、視覚概念とその関係を簡潔で包括的で解釈可能な方法でカプセル化できる新しい知識表現である。
視覚世界に関する知識は、人間の認知と知性にとって欠かせない要素として認識されているため、視覚知識は、機械知性を確立する上で重要な役割を担っていると考えられる。
- 参考スコア(独自算出の注目度): 63.282425615863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual knowledge is a new form of knowledge representation that can encapsulate visual concepts and their relations in a succinct, comprehensive, and interpretable manner, with a deep root in cognitive psychology. As the knowledge about the visual world has been identified as an indispensable component of human cognition and intelligence, visual knowledge is poised to have a pivotal role in establishing machine intelligence. With the recent advance of Artificial Intelligence (AI) techniques, large AI models (or foundation models) have emerged as a potent tool capable of extracting versatile patterns from broad data as implicit knowledge, and abstracting them into an outrageous amount of numeric parameters. To pave the way for creating visual knowledge empowered AI machines in this coming wave, we present a timely review that investigates the origins and development of visual knowledge in the pre-big model era, and accentuates the opportunities and unique role of visual knowledge in the big model era.
- Abstract(参考訳): 視覚知識は、認知心理学に深く根ざした、簡潔で包括的で解釈可能な方法で視覚概念とその関係をカプセル化できる知識表現の新しい形態である。
視覚世界に関する知識は、人間の認知と知性にとって欠かせない要素として認識されているため、視覚知識は、機械知性を確立する上で重要な役割を担っていると考えられる。
人工知能(AI)技術の最近の進歩により、大規模なAIモデル(または基礎モデル)は、広義のデータから多義パターンを暗黙の知識として抽出し、それらを無数の数値パラメータに抽象化する強力なツールとして登場した。
この波の中で視覚知識を付与するAIマシンを創出するために、我々は、大型モデル時代における視覚知識の起源と発展を調査し、大型モデル時代における視覚知識の機会とユニークな役割をアクセントするタイムリーなレビューを提示する。
関連論文リスト
- Visual cognition in multimodal large language models [12.603212933816206]
近年の進歩は、人間のような認知能力をエミュレートする可能性への関心を再燃させた。
本稿では、直観物理学、因果推論、直観心理学の分野における視覚に基づく大規模言語モデルの現状を評価する。
論文 参考訳(メタデータ) (2023-11-27T18:58:34Z) - AI-Generated Images as Data Source: The Dawn of Synthetic Era [61.879821573066216]
生成AIは、現実世界の写真によく似た合成画像を作成する可能性を解き放った。
本稿では、これらのAI生成画像を新しいデータソースとして活用するという革新的な概念を探求する。
実際のデータとは対照的に、AI生成データには、未整合のアブリダンスやスケーラビリティなど、大きなメリットがある。
論文 参考訳(メタデータ) (2023-10-03T06:55:19Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - From Psychological Curiosity to Artificial Curiosity: Curiosity-Driven
Learning in Artificial Intelligence Tasks [56.20123080771364]
心理学的好奇心は、探索と情報取得を通じて学習を強化するために、人間の知性において重要な役割を果たす。
人工知能(AI)コミュニティでは、人工好奇心は効率的な学習に自然な本質的な動機を与える。
CDLはますます人気を博し、エージェントは新たな知識を学習するために自己動機付けされている。
論文 参考訳(メタデータ) (2022-01-20T17:07:03Z) - Visual Sensation and Perception Computational Models for Deep Learning:
State of the art, Challenges and Prospects [7.949330621850412]
視覚感覚と知覚は、環境認識と理解において視覚情報を検知し、整理し、識別し、解釈する過程を指す。
視覚知覚にインスパイアされた計算モデルは、認知科学、情報科学、人工知能など多くの分野から生まれた複雑さと多様性の特徴を持つ。
論文 参考訳(メタデータ) (2021-09-08T01:51:24Z) - A Metamodel and Framework for Artificial General Intelligence From
Theory to Practice [11.756425327193426]
本稿では,自律学習と適応性を大幅に向上させるメタモデルに基づく知識表現を提案する。
我々は,時系列解析,コンピュータビジョン,自然言語理解といった問題にメタモデルを適用した。
メタモデルの驚くべき結果のひとつは、新たなレベルの自律的な学習と、マシンインテリジェンスのための最適な機能を可能にするだけでなく、それを可能にすることだ。
論文 参考訳(メタデータ) (2021-02-11T16:45:58Z) - Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike
Common Sense [142.53911271465344]
我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。
我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
論文 参考訳(メタデータ) (2020-04-20T04:07:28Z) - A Review on Intelligent Object Perception Methods Combining
Knowledge-based Reasoning and Machine Learning [60.335974351919816]
物体知覚はコンピュータビジョンの基本的なサブフィールドである。
最近の研究は、物体の視覚的解釈のインテリジェンスレベルを拡大するために、知識工学を統合する方法を模索している。
論文 参考訳(メタデータ) (2019-12-26T13:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。