論文の概要: Solving Vision Tasks with Simple Photoreceptors Instead of Cameras
- arxiv url: http://arxiv.org/abs/2406.11769v1
- Date: Mon, 17 Jun 2024 17:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 13:33:44.799600
- Title: Solving Vision Tasks with Simple Photoreceptors Instead of Cameras
- Title(参考訳): カメラの代わりにシンプルな光受容体を用いた視覚課題の解決
- Authors: Andrei Atanov, Jiawei Fu, Rishubh Singh, Isabella Yu, Andrew Spielberg, Amir Zamir,
- Abstract要約: 視覚ナビゲーションや連続制御など,多くの課題を解くのに十分な光受容体はごくわずかであることを示す。
これらの単純な視覚センサの設計は,有用な情報提供能力において重要な役割を担っている。
- 参考スコア(独自算出の注目度): 15.3197360053297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A de facto standard in solving computer vision problems is to use a common high-resolution camera and choose its placement on an agent (i.e., position and orientation) based on human intuition. On the other hand, extremely simple and well-designed visual sensors found throughout nature allow many organisms to perform diverse, complex behaviors. In this work, motivated by these examples, we raise the following questions: 1. How effective simple visual sensors are in solving vision tasks? 2. What role does their design play in their effectiveness? We explore simple sensors with resolutions as low as one-by-one pixel, representing a single photoreceptor First, we demonstrate that just a few photoreceptors can be enough to solve many tasks, such as visual navigation and continuous control, reasonably well, with performance comparable to that of a high-resolution camera. Second, we show that the design of these simple visual sensors plays a crucial role in their ability to provide useful information and successfully solve these tasks. To find a well-performing design, we present a computational design optimization algorithm and evaluate its effectiveness across different tasks and domains, showing promising results. Finally, we perform a human survey to evaluate the effectiveness of intuitive designs devised manually by humans, showing that the computationally found design is among the best designs in most cases.
- Abstract(参考訳): コンピュータビジョン問題を解決するデファクトスタンダードは、一般的な高解像度カメラを使用して、人間の直感に基づいてエージェント(位置と方向)に配置することである。
一方、非常にシンプルでよく設計された視覚センサーは、多くの生物が多様な複雑な振る舞いをすることができる。
これらの事例に動機づけられた本研究では、以下の疑問を提起する。
1.視覚課題の解決における視覚センサの有効性
2. 有効性においてデザインはどのような役割を担いますか。
まず、視覚ナビゲーションや連続制御といった多くのタスクを、高解像度カメラに匹敵する性能で解決できることを実証する。
第2に、これらの単純な視覚センサの設計は、有用な情報を提供し、これらの課題をうまく解決する上で重要な役割を担っていることを示す。
優れた設計を求めるため,計算設計最適化アルゴリズムを提案し,その性能を様々なタスクや領域で評価し,有望な結果を示す。
最後に,人間が手作業で考案した直感的な設計の有効性を評価するために,人間の調査を行い,計算によって得られた設計がほとんどの場合において最良の設計であることを示す。
関連論文リスト
- Semantics Disentanglement and Composition for Versatile Codec toward both Human-eye Perception and Machine Vision Task [47.7670923159071]
本研究は,人間の目知覚と機械視タスクを同時に強化する革新的セマンティックス Disentanglement と COmposition versatile (DISCOVER) を導入する。
このアプローチはタスク毎のラベルの集合をマルチモーダルな大モデルで導き出し、グラウンドモデルを用いて正確なローカライズを行い、エンコーダ側の画像成分の包括的理解とアンタングル化を可能にする。
復号段階では、これらの符号化されたコンポーネントを生成モデルから先行して活用することにより、画像の総合的な再構成を実現し、人間の視覚知覚とマシンベースの分析タスクの両方のパフォーマンスを最適化する。
論文 参考訳(メタデータ) (2024-12-24T04:32:36Z) - Low-Light Enhancement Effect on Classification and Detection: An Empirical Study [48.6762437869172]
我々は,低照度画像強調法(LLIE)が高レベル視覚タスクに与える影響を評価する。
本研究は,人間の視覚知覚における画像強調と,機械解析における切り離しを示唆するものである。
この洞察は、人間と機械の視覚の両方のニーズに合致するLLIE技術の開発に不可欠である。
論文 参考訳(メタデータ) (2024-09-22T14:21:31Z) - Towards A Unified Neural Architecture for Visual Recognition and
Reasoning [40.938279131241764]
視覚認識と推論のための統一型ニューラルアーキテクチャを提案し,両者の汎用インターフェース(トークンなど)を提案する。
我々のフレームワークは、視覚的認識タスク、データセット、帰納的バイアスが、原則化された時間的推論機能を実現するのにどのように役立つかを調べることができる。
論文 参考訳(メタデータ) (2023-11-10T20:27:43Z) - End-to-End (Instance)-Image Goal Navigation through Correspondence as an
Emergent Phenomenon [27.252343068970852]
そこで我々は,大容量双眼VTモデルを用いた新しいデュアルエンコーダを提案し,対応解が学習信号から自然に現れることを示す。
実験では、ImageNavとインスタンス-ImageNavの2つのベンチマークで、大幅な改善とSOTAパフォーマンスが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:41:17Z) - Empowering Visually Impaired Individuals: A Novel Use of Apple Live
Photos and Android Motion Photos [3.66237529322911]
われわれは、Apple Live PhotosとAndroid Motion Photosの技術の使用を提唱している。
以上の結果から,Live PhotosとMotion Photosは,共通の視覚支援タスクにおいて,単フレーム画像よりも優れていた。
論文 参考訳(メタデータ) (2023-09-14T20:46:35Z) - A Real-time Human Pose Estimation Approach for Optimal Sensor Placement
in Sensor-based Human Activity Recognition [63.26015736148707]
本稿では,人間の行動認識に最適なセンサ配置の課題を解決するための新しい手法を提案する。
得られた骨格データは、最適なセンサ位置を特定するためのユニークな戦略を提供する。
本研究は,センサ配置の視覚的手法が従来のディープラーニング手法と同等の結果をもたらすことを示唆している。
論文 参考訳(メタデータ) (2023-07-06T10:38:14Z) - See, Hear, and Feel: Smart Sensory Fusion for Robotic Manipulation [49.925499720323806]
視覚的、聴覚的、触覚的知覚が、ロボットが複雑な操作タスクを解くのにどのように役立つかを研究する。
私たちは、カメラで見たり、コンタクトマイクで聞いたり、視覚ベースの触覚センサーで感じるロボットシステムを構築しました。
論文 参考訳(メタデータ) (2022-12-07T18:55:53Z) - Analyzing General-Purpose Deep-Learning Detection and Segmentation
Models with Images from a Lidar as a Camera Sensor [0.06554326244334865]
本研究は,高度ライダーセンサのイメージライクな出力処理のための汎用DL認識アルゴリズムの可能性について検討する。
3次元の点クラウドデータを処理するのではなく、私たちの知る限りでは、360textの視野を持つ低解像度の画像にフォーカスする最初の試みである。
適切な事前処理を行うことで、汎用DLモデルはこれらの画像を処理し、環境条件下での使用への扉を開くことができることを示す。
論文 参考訳(メタデータ) (2022-03-08T13:14:43Z) - Factors of Influence for Transfer Learning across Diverse Appearance
Domains and Task Types [50.1843146606122]
現在の最新のコンピュータビジョンモデルでは、簡単な転送学習が一般的です。
転校学習に関するこれまでの体系的な研究は限られており、作業が期待される状況は十分に理解されていない。
本論文では,非常に異なる画像領域にまたがる転送学習の広範な実験的研究を行う。
論文 参考訳(メタデータ) (2021-03-24T16:24:20Z) - Unadversarial Examples: Designing Objects for Robust Vision [100.4627585672469]
現代の機械学習アルゴリズムの感度を入力摂動に活かし、「ロバストオブジェクト」を設計するフレームワークを開発しています。
標準ベンチマークから(シミュレーション中)ロボット工学まで,さまざまな視覚ベースのタスクに対するフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-12-22T18:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。