論文の概要: QualiaNet: An Experience-Before-Inference Network
- arxiv url: http://arxiv.org/abs/2604.14193v1
- Date: Wed, 01 Apr 2026 17:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.71037
- Title: QualiaNet: An Experience-Before-Inference Network
- Title(参考訳): QualiaNet: 経験に基づく推論ネットワーク
- Authors: Paul Linton,
- Abstract要約: 距離を推定するために訓練されたCNNに、人間のステレオ体験をシミュレートする不均一マップがどのように渡されるかを示す。
ネットワークは不均一勾配のみから距離を回復し、このアプローチを検証できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human 3D vision involves two distinct stages: an Experience Module, where stereo depth is extracted relative to fixation, and an Inference Module, where this experience is interpreted to estimate 3D scene properties. Paradoxically, although our experience of stereo vision does not provide us with distance information, it does affect our inferences about visual scale. We propose the Inference Module exploits a natural scene statistic: near scenes produce vivid disparity gradients, while far scenes appear comparatively flat. QualiaNet implements this two-stage architecture computationally: disparity maps simulating human stereo experience are passed to a CNN trained to estimate distance. The network can recover distance from disparity gradients alone, validating this approach.
- Abstract(参考訳): 人間の3D視覚は、固定に対するステレオ深度を抽出するエクスペリエンスモジュールと、この体験を3Dシーン特性を推定するために解釈する推論モジュールの2つの異なるステージを含む。
反対に、ステレオビジョンの経験は距離情報を提供していないが、視覚的スケールに関する推測に影響を及ぼす。
Inference Module は自然のシーン統計を利用しており、近景は鮮明な不均一勾配を生じ、遠景は比較的平坦に見える。
人間のステレオ体験をシミュレートする不均一マップは、距離を推定するために訓練されたCNNに渡される。
ネットワークは不均一勾配のみから距離を回復し、このアプローチを検証できる。
関連論文リスト
- Any3D-VLA: Enhancing VLA Robustness via Diverse Point Clouds [57.024495128182195]
我々は、異なる観測空間と視覚的表現をまたいだパイロット研究を行う。
その結果、視覚的入力を点雲に明示的に持ち上げることで、対応する2次元表現をより補完する表現が得られることがわかった。
本稿では,(1)3次元データの不足,(2)環境横断差と奥行き偏差による領域ギャップの解消という課題に対処するAny3D-VLAを提案する。
論文 参考訳(メタデータ) (2026-01-31T16:34:52Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - BEVStereo++: Accurate Depth Estimation in Multi-view 3D Object Detection
via Dynamic Temporal Stereo [6.5401888641091634]
時間的多視点ステレオ(MVS)技術は、この曖昧さに対処するための自然な知識である。
動的時間的ステレオ戦略を導入することで、BEVStereo++は、時間的ステレオを導入することによってもたらされる害を削減できる。
BEVStereo++は、データセットとnuSceneの両方で最先端(SOTA)を実現する。
論文 参考訳(メタデータ) (2023-04-09T08:04:26Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Equivariant Neural Rendering [22.95150913645939]
本稿では,3次元の監督なしに画像から直接ニューラルシーン表現を学習するためのフレームワークを提案する。
我々の重要な洞察は、学習された表現が本物の3Dシーンのように変換されることを保証することで、3D構造を課すことである。
私たちの定式化によって、推論に数分を要するモデルに匹敵する結果を得ながら、リアルタイムでシーンを推測および描画することが可能になります。
論文 参考訳(メタデータ) (2020-06-13T12:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。