論文の概要: Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike
Common Sense
- arxiv url: http://arxiv.org/abs/2004.09044v1
- Date: Mon, 20 Apr 2020 04:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 17:36:51.614342
- Title: Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike
Common Sense
- Title(参考訳): Dark, Beyond Deep:人間のような常識を持つ認知AIへのパラダイムシフト
- Authors: Yixin Zhu, Tao Gao, Lifeng Fan, Siyuan Huang, Mark Edmonds, Hangxin
Liu, Feng Gao, Chi Zhang, Siyuan Qi, Ying Nian Wu, Joshua B. Tenenbaum,
Song-Chun Zhu
- Abstract要約: 我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。
我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
- 参考スコア(独自算出の注目度): 142.53911271465344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in deep learning is essentially based on a "big data for
small tasks" paradigm, under which massive amounts of data are used to train a
classifier for a single narrow task. In this paper, we call for a shift that
flips this paradigm upside down. Specifically, we propose a "small data for big
tasks" paradigm, wherein a single artificial intelligence (AI) system is
challenged to develop "common sense", enabling it to solve a wide range of
tasks with little training data. We illustrate the potential power of this new
paradigm by reviewing models of common sense that synthesize recent
breakthroughs in both machine and human vision. We identify functionality,
physics, intent, causality, and utility (FPICU) as the five core domains of
cognitive AI with humanlike common sense. When taken as a unified concept,
FPICU is concerned with the questions of "why" and "how", beyond the dominant
"what" and "where" framework for understanding vision. They are invisible in
terms of pixels but nevertheless drive the creation, maintenance, and
development of visual scenes. We therefore coin them the "dark matter" of
vision. Just as our universe cannot be understood by merely studying observable
matter, we argue that vision cannot be understood without studying FPICU. We
demonstrate the power of this perspective to develop cognitive AI systems with
humanlike common sense by showing how to observe and apply FPICU with little
training data to solve a wide range of challenging tasks, including tool use,
planning, utility inference, and social learning. In summary, we argue that the
next generation of AI must embrace "dark" humanlike common sense for solving
novel tasks.
- Abstract(参考訳): ディープラーニングの最近の進歩は、基本的に「小さなタスクのための大きなデータ」パラダイムに基づいており、そこでは1つの狭いタスクの分類器を訓練するために大量のデータが使用される。
本稿では,このパラダイムを逆転させるシフトを求める。
具体的には、単一の人工知能(AI)システムが「常識」を発達させることを課題とし、学習データが少なくて幅広いタスクを解決できる「ビッグデータのための小さなデータ」パラダイムを提案する。
我々は、機械と人間の視覚の両方において最近のブレークスルーを合成する常識のモデルをレビューすることで、この新しいパラダイムの潜在能力を説明する。
我々は、機能、物理学、意図、因果性、実用性(fpicu)を、人間のような常識を持つ認知aiの5つのコアドメインとして識別する。
統一概念として考えると、FPICUは、視覚を理解するための支配的な「何」と「どこに」の枠組みを超えた「なぜ」と「どのように」という問いに悩まされる。
ピクセルは見えないが、それでも視覚的なシーンの作成、維持、開発を推進している。
したがって、私たちはそれらを「暗黒の物質」と呼ぶ。
我々の宇宙は単に観測可能な物質を研究するだけでは理解できないので、FPICUを勉強しなければ視覚が理解できないと主張する。
我々は、ツールの使用、計画、ユーティリティ推論、社会学習を含む幅広い課題を解決するために、FPICUを少ないトレーニングデータで観察し、適用する方法を示すことによって、人間のような常識を持つ認知AIシステムを開発するためのこの視点の力を実証する。
まとめると、私たちは、次世代AIは、新しいタスクを解くために「暗く」人間のような常識を取り入れなければならないと論じます。
関連論文リスト
- Vision Language Models See What You Want but not What You See [9.268588981925234]
他人の意図を知り、他人の視点をとることは、人間の知性の2つの中核的な構成要素である。
本稿では,視覚言語モデルにおける意図理解と視点獲得について考察する。
意外なことに、VLMは意図的理解では高いパフォーマンスを達成できるが、視点決定では低いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-01T01:52:01Z) - Artificial General Intelligence (AGI)-Native Wireless Systems: A Journey Beyond 6G [58.440115433585824]
デジタルツイン(DT)のようなサービスをサポートする将来の無線システムの構築は、メタサーフェスのような従来の技術への進歩を通じて達成することが困難である。
人工知能(AI)ネイティブネットワークは、無線技術のいくつかの制限を克服することを約束する一方で、開発は依然としてニューラルネットワークのようなAIツールに依存している。
本稿では、AIネイティブ無線システムの概念を再考し、それらを人工知能(AGI)ネイティブシステムに変換するために必要な共通感覚を取り入れた。
論文 参考訳(メタデータ) (2024-04-29T04:51:05Z) - Visual Knowledge in the Big Model Era: Retrospect and Prospect [63.282425615863]
視覚知識は、視覚概念とその関係を簡潔で包括的で解釈可能な方法でカプセル化できる新しい知識表現である。
視覚世界に関する知識は、人間の認知と知性にとって欠かせない要素として認識されているため、視覚知識は、機械知性を確立する上で重要な役割を担っていると考えられる。
論文 参考訳(メタデータ) (2024-04-05T07:31:24Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - A Review on Objective-Driven Artificial Intelligence [0.0]
人間は、コミュニケーションにおける文脈、ニュアンス、微妙な手がかりを理解する能力を持っている。
人間は、世界に関する論理的推論と予測を行うのに役立つ、常識的な知識の広大なリポジトリを持っています。
機械はこの本質的な理解に欠けており、人間が自明に感じる状況を理解するのに苦労することが多い。
論文 参考訳(メタデータ) (2023-08-20T02:07:42Z) - Reflective Artificial Intelligence [2.7412662946127755]
人間の心が以前この活動に持ち込んだであろう多くの重要な性質は、AIには全く欠落している。
人間がタスクにもたらす中核的な特徴は、リフレクションである。
しかし、この能力は、現在の主流AIには全く欠落している。
本稿では、リフレクティブAIがどのようなものになるかを尋ねる。
論文 参考訳(メタデータ) (2023-01-25T20:50:26Z) - Learning Perceptual Concepts by Bootstrapping from Human Queries [41.07749131023931]
本稿では,ロボットが概念の低次元変種を学習し,それを用いて高次元空間における概念学習のためのより大きなデータセットを生成する手法を提案する。
これにより、オブジェクトのポーズやバウンディングボックスなど、トレーニング時にのみアクセス可能な意味的に意味のある特権情報の活用が可能になる。
論文 参考訳(メタデータ) (2021-11-09T16:43:46Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。