論文の概要: A transition towards virtual representations of visual scenes
- arxiv url: http://arxiv.org/abs/2410.07987v1
- Date: Thu, 10 Oct 2024 14:41:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 06:15:07.756920
- Title: A transition towards virtual representations of visual scenes
- Title(参考訳): 視覚シーンの仮想表現への遷移
- Authors: Américo Pereira, Pedro Carvalho, Luís Côrte-Real,
- Abstract要約: 視覚的シーン理解は、視覚データから意味のある情報を抽出することを目的とした、コンピュータビジョンの基本的なタスクである。
本稿では3次元仮想合成に向けた視覚的シーン理解と記述の課題に対処するアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 1.4201040196058878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual scene understanding is a fundamental task in computer vision that aims to extract meaningful information from visual data. It traditionally involves disjoint and specialized algorithms for different tasks that are tailored for specific application scenarios. This can be cumbersome when designing complex systems that include processing of visual and semantic data extracted from visual scenes, which is even more noticeable nowadays with the influx of applications for virtual or augmented reality. When designing a system that employs automatic visual scene understanding to enable a precise and semantically coherent description of the underlying scene, which can be used to fuel a visualization component with 3D virtual synthesis, the lack of flexibility and unified frameworks become more prominent. To alleviate this issue and its inherent problems, we propose an architecture that addresses the challenges of visual scene understanding and description towards a 3D virtual synthesis that enables an adaptable, unified and coherent solution. Furthermore, we expose how our proposition can be of use into multiple application areas. Additionally, we also present a proof of concept system that employs our architecture to further prove its usability in practice.
- Abstract(参考訳): 視覚的シーン理解は、視覚データから意味のある情報を抽出することを目的とした、コンピュータビジョンの基本的なタスクである。
従来は、特定のアプリケーションシナリオに適した、さまざまなタスクのための分離された特殊なアルゴリズムが含まれていました。
視覚的なシーンから抽出された視覚的および意味的なデータの処理を含む複雑なシステムを設計する場合、これは厄介である。
3次元仮想合成で可視化コンポーネントを活性化するのに使用できる、背景シーンの正確かつセマンティックな記述を可能にするために、自動的な視覚的シーン理解を利用するシステムを設計する場合、柔軟性と統一されたフレームワークの欠如がより顕著になる。
この問題とその固有の問題を緩和するために,適応的で統一的で一貫性のあるソリューションを実現する3次元仮想合成への視覚的シーン理解と記述の課題に対処するアーキテクチャを提案する。
さらに、提案が複数のアプリケーション領域でどのように使えるかを明らかにします。
さらに,その実用性をさらに証明するために,アーキテクチャを用いた概念実証システムも提案する。
関連論文リスト
- VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - In-Place Panoptic Radiance Field Segmentation with Perceptual Prior for 3D Scene Understanding [1.8130068086063336]
そこで本研究では,視覚を主眼とした3次元シーン表現とパノプティクス理解手法を提案する。
2次元セマンティクスとインスタンス認識を含む線形代入問題として、神経放射場内のパノプティクス理解を再構成する。
合成シーンや実世界のシーンを含む課題条件下での実験とアブレーション研究は,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-06T15:49:58Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Recent Trends in 3D Reconstruction of General Non-Rigid Scenes [104.07781871008186]
コンピュータグラフィックスやコンピュータビジョンにおいて、3次元幾何学、外観、実際のシーンの動きを含む現実世界のモデルの再構築が不可欠である。
これは、映画産業やAR/VRアプリケーションに有用な、フォトリアリスティックなノベルビューの合成を可能にする。
この最新技術レポート(STAR)は、モノクロおよびマルチビュー入力による最新技術の概要を読者に提供する。
論文 参考訳(メタデータ) (2024-03-22T09:46:11Z) - Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2023-12-03T14:15:52Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Neural Rendering in a Room: Amodal 3D Understanding and Free-Viewpoint
Rendering for the Closed Scene Composed of Pre-Captured Objects [40.59508249969956]
閉シーンに対するニューラルレンダリングを用いたアモーダル3次元シーン理解の新しいパラダイムに基づいて、そのような人間の知覚能力を模倣する新しいソリューションを提案する。
まず, 閉鎖シーンにおける物体の事前の知識を, オフラインステージを通じて学習し, オンラインステージにおいて, 家具の配置のない部屋の理解を容易にする。
オンライン段階において、異なるレイアウトのシーンのパノラマ画像が与えられた場合、我々は、全体論的ニューラルネットワークに基づく最適化フレームワークを使用して、正しい3Dシーンレイアウトを効率的に推定し、リアルな自由視点レンダリングを提供する。
論文 参考訳(メタデータ) (2022-05-05T15:34:09Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - MINERVAS: Massive INterior EnviRonments VirtuAl Synthesis [27.816895835009994]
本稿では,様々な視覚タスクのための3次元シーン修正と2次元画像合成を容易にするために,大規模インテリアエンビジョンメントVirtuAl合成システムを提案する。
本研究では,ドメイン特化言語を用いたプログラマブルパイプラインを設計し,商業屋内シーンデータベースからシーンを選択する。
合成したデータを用いて,様々なコンピュータビジョンタスクの性能向上を図ることにより,システムの有効性と柔軟性を実証する。
論文 参考訳(メタデータ) (2021-07-13T14:53:01Z) - Perception Framework through Real-Time Semantic Segmentation and Scene
Recognition on a Wearable System for the Visually Impaired [27.04316520914628]
シーン解析および認識タスクのためのマルチタスク効率的な認識システムを提案する。
このシステムは、Intel RealSense LiDARカメラとNvidia Jetson AGX Xavierプロセッサを搭載したウェアラブルベルト上で動作する。
論文 参考訳(メタデータ) (2021-03-06T15:07:17Z) - SceneGen: Generative Contextual Scene Augmentation using Scene Graph
Priors [3.1969855247377827]
SceneGenは、既存のシーン内の仮想オブジェクトの位置と方向を予測する、生成的コンテキスト拡張フレームワークである。
SceneGenはセグメンテーションされたシーンを入力として、仮想コンテンツを置くための位置と向きの確率マップを出力する。
オブジェクト, オブジェクト群, 部屋間の明確な位相特性をカプセル化した空間的シーングラフ表現を定式化する。
そこで本研究では,オブジェクトをリアルタイムに拡張可能な拡張現実アプリケーションを開発した。
論文 参考訳(メタデータ) (2020-09-25T18:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。