論文の概要: Semantic scene synthesis: Application to assistive systems
- arxiv url: http://arxiv.org/abs/2008.03685v2
- Date: Wed, 14 Apr 2021 21:14:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 04:15:56.438453
- Title: Semantic scene synthesis: Application to assistive systems
- Title(参考訳): セマンティックシーン合成:支援システムへの応用
- Authors: Chayma Zatout, Slimane Larabi
- Abstract要約: 本研究の目的は,単一深度画像からのセマンティックシーン合成を提供することである。
これは視覚障害者や視覚障害者に対して、触覚で周囲を理解できるようにする補助補助システムに使用される。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The aim of this work is to provide a semantic scene synthesis from a single
depth image. This is used in assistive aid systems for visually impaired and
blind people that allow them to understand their surroundings by the touch
sense. The fact that blind people use touch to recognize objects and rely on
listening to replace sight, motivated us to propose this work. First, the
acquired depth image is segmented and each segment is classified in the context
of assistive systems using a deep learning network. Second, inspired by the
Braille system and the Japanese writing system Kanji, the obtained classes are
coded with semantic labels. The scene is then synthesized using these labels
and the extracted geometric features. Our system is able to predict more than
17 classes only by understanding the provided illustrative labels. For the
remaining objects, their geometric features are transmitted. The labels and the
geometric features are mapped on a synthesis area to be sensed by the touch
sense. Experiments are conducted on noisy and incomplete data including
acquired depth images of indoor scenes and public datasets. The obtained
results are reported and discussed.
- Abstract(参考訳): 本研究の目的は,単一深度画像からのセマンティックシーン合成を提供することである。
これは視覚障害者や視覚障害者に対して、触覚で周囲を理解できるようにする補助補助システムに使用される。
視覚障害者がタッチを使って物体を認識し、視覚の代わりに聴くことに依存しているという事実は、この仕事を提案する動機となった。
まず、取得した深度画像をセグメント化し、各セグメントをディープラーニングネットワークを用いて支援システムのコンテキストに分類する。
第二に、点字体系と日本語表記体系の漢字にヒントを得て、得られたクラスを意味ラベルで符号化する。
次にこれらのラベルと抽出された幾何学的特徴を用いてシーンを合成する。
本システムでは,提供されたラベルを理解するだけで17クラス以上を予測できる。
残りのオブジェクトは、その幾何学的特徴が伝達される。
ラベルと幾何学的特徴は、タッチセンスによって知覚される合成領域にマッピングされる。
室内シーンの深度画像や公開データセットなどのノイズや不完全なデータを用いて実験を行った。
得られた結果を報告し、議論する。
関連論文リスト
- Semantically-aware Neural Radiance Fields for Visual Scene
Understanding: A Comprehensive Review [26.436253160392123]
視覚的シーン理解における意味的認識型ニューラルレイディアンスフィールド(NeRF)の役割を概観する。
NeRFはシーン内の静止オブジェクトと動的オブジェクトの両方に対して3D表現を正確に推論する。
論文 参考訳(メタデータ) (2024-02-17T00:15:09Z) - Learning Scene Context Without Images [2.8184014933789365]
本研究では,アテンション機構を用いてシーンコンテキストの知識を機械に教える新しい手法を提案する。
提案手法の特筆すべき側面は、シーンコンテキストを教えるための画像データセットからのラベルのみに依存することである。
本研究では,異なるオブジェクト間のシーンワイドな関係を自己認識機構を用いて学習する方法を示す。
論文 参考訳(メタデータ) (2023-11-18T07:27:25Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Advances in Neural Rendering [115.05042097988768]
本稿では,古典的レンダリングと学習された3Dシーン表現を組み合わせた手法について述べる。
これらの手法の重要な利点は、これらが3D一貫性を持ち、キャプチャされたシーンの新たな視点のようなアプリケーションを可能にすることである。
静的なシーンを扱う方法に加えて、非厳密な変形オブジェクトをモデル化するためのニューラルシーン表現についても取り上げる。
論文 参考訳(メタデータ) (2021-11-10T18:57:01Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Hierarchical Semantic Segmentation using Psychometric Learning [17.417302703539367]
我々は,心理測定テストに基づいて,専門家からセグメンテーションアノテーションを収集する手法を開発した。
本手法は, 心理測定試験, アクティブクエリ選択, クエリ強化, ディープメトリック学習モデルから構成される。
本稿では, 合成画像, 空中画像, 組織像について評価し, 提案手法の有用性を示す。
論文 参考訳(メタデータ) (2021-07-07T13:38:33Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。