論文の概要: Semantic and structural image segmentation for prosthetic vision
- arxiv url: http://arxiv.org/abs/1809.09607v3
- Date: Tue, 28 Jan 2025 22:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:12:08.771724
- Title: Semantic and structural image segmentation for prosthetic vision
- Title(参考訳): 人工視覚のための意味的・構造的イメージセグメンテーション
- Authors: Melani Sanchez-Garcia, Ruben Martinez-Cantin, Jose J. Guerrero,
- Abstract要約: 実環境における物体認識とシーン理解の能力は,義肢使用者に対して厳しく制限されている。
フォスフェン画像のための屋内環境のスキーマ表現を構築するための新しい手法を提案する。
提案手法は,関連情報を抽出,伝達するための様々な畳み込みニューラルネットワークを組み合わせる。
- 参考スコア(独自算出の注目度): 2.048226951354646
- License:
- Abstract: Prosthetic vision is being applied to partially recover the retinal stimulation of visually impaired people. However, the phosphenic images produced by the implants have very limited information bandwidth due to the poor resolution and lack of color or contrast. The ability of object recognition and scene understanding in real environments is severely restricted for prosthetic users. Computer vision can play a key role to overcome the limitations and to optimize the visual information in the simulated prosthetic vision, improving the amount of information that is presented. We present a new approach to build a schematic representation of indoor environments for phosphene images. The proposed method combines a variety of convolutional neural networks for extracting and conveying relevant information about the scene such as structural informative edges of the environment and silhouettes of segmented objects. Experiments were conducted with normal sighted subjects with a Simulated Prosthetic Vision system. The results show good accuracy for object recognition and room identification tasks for indoor scenes using the proposed approach, compared to other image processing methods.
- Abstract(参考訳): 視覚障害者の網膜刺激を部分的に回復させるために人工視覚が応用されている。
しかし、インプラントによって生成されたフォスフェニック画像は、解像度が悪く、色やコントラストが不足しているため、情報の帯域幅が非常に限られている。
実環境における物体認識とシーン理解の能力は,義肢使用者に対して厳しく制限されている。
コンピュータビジョンは、限界を克服し、シミュレートされた義肢の視覚情報を最適化し、提示される情報の量を改善するために重要な役割を果たす。
フォスフェン画像のための屋内環境のスキーマ表現を構築するための新しい手法を提案する。
提案手法は,環境の構造情報エッジやセグメントオブジェクトのシルエットなど,シーンに関する関連情報を抽出し,伝達するための,様々な畳み込みニューラルネットワークを組み合わせる。
シミュレートされた補綴型視覚システムを用いて,健常者を対象に実験を行った。
提案手法は,他の画像処理手法と比較して,室内シーンにおける物体認識と部屋識別の精度がよいことを示す。
関連論文リスト
- Influence of field of view in visual prostheses design: Analysis with a VR system [3.9998518782208783]
視覚補綴における空間分解能に対する視野の影響を評価する。
通常視認される被験者は24名に、通常の物体の発見と認識を依頼された。
その結果、視野が大きくなると精度と応答時間が低下することがわかった。
論文 参考訳(メタデータ) (2025-01-28T22:25:22Z) - Knowledge-Guided Prompt Learning for Deepfake Facial Image Detection [54.26588902144298]
ディープフェイク顔画像検出のための知識誘導型プロンプト学習法を提案する。
具体的には、学習可能なプロンプトの最適化を導くための専門家知識として、大規模言語モデルから偽造関連プロンプトを抽出する。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-01-01T02:18:18Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Learning How To Robustly Estimate Camera Pose in Endoscopic Videos [5.073761189475753]
カメラポーズ推定における2つの幾何学的損失を最小限に抑えるために,奥行きと光学的流れを推定するステレオ内視鏡の解を提案する。
最も重要なことは、入力画像の内容に応じてコントリビューションのバランスをとるために、2つの学習された画素単位の重みマッピングを導入することである。
パブリックなSCAREDデータセットに対する我々のアプローチを検証するとともに、新たなインビボデータセットであるStereoMISを導入しています。
論文 参考訳(メタデータ) (2023-04-17T07:05:01Z) - Neural Radiance Transfer Fields for Relightable Novel-view Synthesis
with Global Illumination [63.992213016011235]
本稿では,ニューラル計算された放射光伝達関数を学習し,新しい視点下でのシーンリライティング手法を提案する。
本手法は,1つの未知の照明条件下で,シーンの実際の画像に対してのみ監視することができる。
その結果, シーンパラメータのアンタングルの復元は, 現状よりも有意に向上していることがわかった。
論文 参考訳(メタデータ) (2022-07-27T16:07:48Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - Assessing visual acuity in visual prostheses through a virtual-reality
system [7.529227133770206]
現在の視覚インプラントは、非常に低解像度で視野が限られており、インプラント患者では視力に制限がある。
我々は,仮想現実感ソフトウェアと携帯型ヘッドマウントディスプレイを組み合わせて,模擬義肢視覚下での通常視認者の性能を評価する。
その結果, 視力は1.3logMAR, 20deg, 1000 phosphene で, 視力は1.3 logMARであった。
論文 参考訳(メタデータ) (2022-05-20T18:24:15Z) - Compositional Scene Representation Learning via Reconstruction: A Survey [48.33349317481124]
構成シーン表現学習はそのような能力を実現するタスクである。
ディープニューラルネットワークは表現学習において有利であることが証明されている。
大量のラベルのないデータを使用し、費用がかかるデータアノテーションを避けることができるため、再構築による学習は有利である。
論文 参考訳(メタデータ) (2022-02-15T02:14:05Z) - Deep Learning--Based Scene Simplification for Bionic Vision [0.0]
対象のセグメンテーションは,視覚的サリエンシと単眼深度推定に基づくモデルよりも,シーン理解を支援する可能性が示唆された。
この研究は、網膜変性疾患を患っている人に対する人工視覚の有用性を大幅に改善する可能性がある。
論文 参考訳(メタデータ) (2021-01-30T19:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。