論文の概要: Can machines learn to see without visual databases?
- arxiv url: http://arxiv.org/abs/2110.05973v1
- Date: Tue, 12 Oct 2021 13:03:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 13:09:07.191486
- Title: Can machines learn to see without visual databases?
- Title(参考訳): マシンはビジュアルデータベースなしで見ることができるか?
- Authors: Alessandro Betti, Marco Gori, Stefano Melacci, Marcello Pelillo, Fabio
Roli
- Abstract要約: 本稿では,視覚的データベースを扱わずに視界を学習するマシンの開発に焦点をあてる。
これは、ビジョンのためのディープラーニング技術に関する真に競争の激しい道を開くかもしれない。
- 参考スコア(独自算出の注目度): 93.73109506642112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper sustains the position that the time has come for thinking of
learning machines that conquer visual skills in a truly human-like context,
where a few human-like object supervisions are given by vocal interactions and
pointing aids only. This likely requires new foundations on computational
processes of vision with the final purpose of involving machines in tasks of
visual description by living in their own visual environment under simple
man-machine linguistic interactions. The challenge consists of developing
machines that learn to see without needing to handle visual databases. This
might open the doors to a truly orthogonal competitive track concerning deep
learning technologies for vision which does not rely on the accumulation of
huge visual databases.
- Abstract(参考訳): 本論文は,声動インタラクションと補聴器のみの指示によって,人間のような物体の監督を行う,真に人間的な文脈で視覚スキルを克服する学習機械を考える上での時間的猶予を保っている。
これはおそらく、単純な人間と機械の言語的相互作用の下で、視覚的記述のタスクに機械を巻き込むために、視覚の計算プロセスに関する新しい基礎を必要とする。
課題は、ビジュアルデータベースを使わずに見ることを学ぶマシンを開発することにある。
これは、巨大なビジュアルデータベースの蓄積に依存しないビジョンのためのディープラーニング技術に関する、真に直交する競争軌道への扉を開くかもしれない。
関連論文リスト
- Exploring Emerging Trends and Research Opportunities in Visual Place Recognition [28.76562316749074]
視覚に基づく認識は、コンピュータビジョンとロボティクスのコミュニティにおける長年の課題である。
ほとんどのローカライズ実装では、視覚的位置認識が不可欠である。
研究者は最近、視覚言語モデルに注意を向けている。
論文 参考訳(メタデータ) (2024-11-18T11:36:17Z) - Improving Visual Perception of a Social Robot for Controlled and
In-the-wild Human-robot Interaction [10.260966795508569]
ソーシャルロボットが深層学習に基づく視覚知覚モデルを採用すると、客観的相互作用性能と主観的ユーザ体験がどう影響するかは明らかでない。
我々は、ペッパーロボットの視覚知覚機能を改善するために、最先端の人間の知覚と追跡モデルを用いている。
論文 参考訳(メタデータ) (2024-03-04T06:47:06Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Deep Learning to See: Towards New Foundations of Computer Vision [88.69805848302266]
この本はコンピュータビジョンの分野における科学的進歩を批判している。
情報に基づく自然法則の枠組みにおける視覚の研究を提案する。
論文 参考訳(メタデータ) (2022-06-30T15:20:36Z) - Visual Intelligence through Human Interaction [43.82765410550207]
我々は,新しいインタラクション戦略により,コンピュータビジョンのための新しい形式のデータ収集と評価が可能になることを実証する。
クラウドソーシングインタフェースにより、有料データ収集を桁違いにスピードアップし、現代の視覚モデルにおけるデータ急激な性質を満たす。
第3に,人間の生成的視覚モデルの評価が信頼性が高く,手頃な価格で,心理物理学理論に根ざしたシステムを開発する。
論文 参考訳(メタデータ) (2021-11-12T19:37:17Z) - Learning Visually Guided Latent Actions for Assistive Teleoperation [9.75385535829762]
視覚入力に潜伏埋め込みを条件とした補助ロボットを開発。
少量の安価で収集しやすい構造データに予め訓練されたオブジェクト検出器を組み込むことにより、i)現在のコンテキストを正確に認識し、ii)新しいオブジェクトやタスクへの制御埋め込みを一般化する。
論文 参考訳(メタデータ) (2021-05-02T23:58:28Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Advancing Visual Specification of Code Requirements for Graphs [0.0]
本稿では,機械学習を用いた有意義なデータの可視化に焦点をあてる。
我々は、人文科学研究者が視覚化のプログラム方法を学ぶための障壁を低くするために、ユーザが視覚的にコード要件を指定できるようにします。
ニューラルネットワークと光学文字認識を組み合わせたハイブリッドモデルを用いて、コードを生成して視覚化する。
論文 参考訳(メタデータ) (2020-07-29T17:01:53Z) - Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike
Common Sense [142.53911271465344]
我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。
我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
論文 参考訳(メタデータ) (2020-04-20T04:07:28Z) - Vision and Language: from Visual Perception to Content Creation [100.36776435627962]
言語へのビジョン"は、おそらく過去5年で最も人気のあるトピックの1つである。
本稿は、これらの2つの側面に沿った最近の進歩、すなわち「言語へのビジョン」と「視覚への言語」を概観する。
論文 参考訳(メタデータ) (2019-12-26T14:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。