論文の概要: Not Your Stereo-Typical Estimator: Combining Vision and Language for Volume Perception
- arxiv url: http://arxiv.org/abs/2604.09886v1
- Date: Fri, 10 Apr 2026 20:24:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.728726
- Title: Not Your Stereo-Typical Estimator: Combining Vision and Language for Volume Perception
- Title(参考訳): ステレオタイピカル推定器ではない:視覚と言語を組み合わせたボリューム知覚
- Authors: Gautham Vinod, Bruce Coburn, Siddeshwar Raghavan, Fengqing Zhu,
- Abstract要約: 本稿では,ステレオビジョンから暗黙的な3次元キューを,自然言語テキストから明示的な事前知識で融合する手法を提案する。
提案手法では,ステレオ画像ペアと,オブジェクトのクラスと近似ボリュームを含む記述文プロンプトから,深い特徴を抽出する。
我々は、我々のテキスト誘導アプローチが視覚のみのベースラインを大幅に上回ることを示すために、公開データセットに関する広範な実験を行った。
- 参考スコア(独自算出の注目度): 9.480328219158254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate volume estimation of objects from visual data is a long-standing challenge in computer vision with significant applications in robotics, logistics, and smart health. Existing methods often rely on complex 3D reconstruction pipelines or struggle with the ambiguity inherent in single-view images. To address these limitations, we introduce a new method that fuses implicit 3D cues from stereo vision with explicit prior knowledge from natural language text. Our approach extracts deep features from a stereo image pair and a descriptive text prompt that contains the object's class and an approximate volume, then integrates them using a simple yet effective projection layer into a unified, multi-modal representation for regression. We conduct extensive experiments on public datasets demonstrating that our text-guided approach significantly outperforms vision-only baselines. Our findings show that leveraging even simple textual priors can effectively guide the volume estimation task, paving the way for more context-aware visual measurement systems. Code: https://gitlab.com/viper-purdue/stereo-typical-estimator.
- Abstract(参考訳): 視覚データからオブジェクトの正確な体積推定は、ロボット工学、ロジスティクス、スマートヘルスにおいて重要な応用を持つコンピュータビジョンにおける長年の課題である。
既存の手法は複雑な3D再構築パイプラインに依存したり、シングルビュー画像に固有の曖昧さに苦労することが多い。
これらの制約に対処するために、ステレオビジョンから暗黙の3Dキューを、自然言語テキストから明示的な事前知識で融合する新しい手法を導入する。
提案手法は,オブジェクトのクラスと近似ボリュームを含むステレオ画像ペアと記述テキストプロンプトから深い特徴を抽出し,単純で効果的なプロジェクション層を用いてレグレッションのための統一されたマルチモーダル表現に統合する。
我々は、我々のテキスト誘導アプローチが視覚のみのベースラインを大幅に上回ることを示すために、公開データセットに関する広範な実験を行った。
以上の結果から,単純なテキスト先行処理を活用すれば,音量推定作業が効果的に導出され,より文脈に配慮した視覚計測システムの実現が期待できることがわかった。
コード:https://gitlab.com/viper-purdue/stereo-typeal-estimator。
関連論文リスト
- VirPro: Visual-referred Probabilistic Prompt Learning for Weakly-Supervised Monocular 3D Detection [12.835071167163607]
VirProは適応型マルチモーダル事前トレーニングパラダイムであり、様々な弱い教師付き単分子3D検出フレームワークにシームレスに統合することができる。
我々は、さまざまな学習可能なインスタンス条件のプロンプトを生成し、それらをAPB(Adaptive Prompt Bank)に格納する。
論文 参考訳(メタデータ) (2026-03-18T08:23:55Z) - Visual Jigsaw Post-Training Improves MLLMs [58.29961336087896]
大規模言語モデル(MLLM)における視覚的理解を強化するために設計された,汎用的な自己教師型ポストトレーニングフレームワークであるVisual Jigsawを紹介する。
視覚的な入力は分割され、シャッフルされ、モデルは自然言語で正しい置換を生成することで視覚情報を再構築する必要がある。
広範囲な実験により、微粒な知覚、時間的推論、空間的理解が大幅に改善された。
論文 参考訳(メタデータ) (2025-09-29T17:59:57Z) - IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering [7.247417417159471]
視覚言語モデル(VLM)は記述的タスクに優れるが、視覚的な観察からシーンを真に理解しているかどうかは不明だ。
IR3D-Benchは、受動的認識よりも能動的生成による理解を実証するために、VLMに挑戦するベンチマークである。
論文 参考訳(メタデータ) (2025-06-29T17:02:57Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for LVLM Decoding [6.612630497074871]
LVLM(Large Vision-Language Models)は、視覚認識と言語理解を統合することで、マルチモーダルタスクにおける強力なパフォーマンスを実現する。
テキスト生成のガイドとして視覚トークンを参照するトレーニング不要な復号法であるReVisiTを提案する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。