論文の概要: Video and Language Alignment in 2D Systems for 3D Multi-object Scenes with Multi-Information Derivative-Free Control
- arxiv url: http://arxiv.org/abs/2512.24826v1
- Date: Wed, 31 Dec 2025 12:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.651854
- Title: Video and Language Alignment in 2D Systems for 3D Multi-object Scenes with Multi-Information Derivative-Free Control
- Title(参考訳): 多情報導出自由制御による3次元多目的シーンの2次元システムにおける映像と言語アライメント
- Authors: Jason Armitage, Rico Sennnrich,
- Abstract要約: 2次元視覚入力に基づいて訓練されたクロスモーダルシステムは、3次元シーンを処理する際に次元シフトを伴って提示される。
微分自由度最適化による後悔最小化による多変量相互情報推定を改善する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.03683202928838612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-modal systems trained on 2D visual inputs are presented with a dimensional shift when processing 3D scenes. An in-scene camera bridges the dimensionality gap but requires learning a control module. We introduce a new method that improves multivariate mutual information estimates by regret minimisation with derivative-free optimisation. Our algorithm enables off-the-shelf cross-modal systems trained on 2D visual inputs to adapt online to object occlusions and differentiate features. The pairing of expressive measures and value-based optimisation assists control of an in-scene camera to learn directly from the noisy outputs of vision-language models. The resulting pipeline improves performance in cross-modal tasks on multi-object 3D scenes without resorting to pretraining or finetuning.
- Abstract(参考訳): 2次元視覚入力に基づいて訓練されたクロスモーダルシステムは、3次元シーンを処理する際に次元シフトを伴って提示される。
シーン内のカメラは次元ギャップを埋めるが、制御モジュールを学習する必要がある。
微分自由度最適化による後悔最小化による多変量相互情報推定を改善する新しい手法を提案する。
本アルゴリズムは,2次元視覚入力に基づいてトレーニングされた市販のクロスモーダルシステムに対して,オブジェクトの隠蔽や特徴の識別を可能にする。
表現力のある測度と値に基づく最適化の組み合わせは、シーン内のカメラの制御を補助し、視覚言語モデルのノイズの多い出力から直接学習する。
結果としてパイプラインは、事前トレーニングや微調整に頼ることなく、マルチオブジェクトの3Dシーンにおけるクロスモーダルタスクのパフォーマンスを向上させる。
関連論文リスト
- Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - Vid-LLM: A Compact Video-based 3D Multimodal LLM with Reconstruction-Reasoning Synergy [4.1703677379815565]
外部の3Dデータを必要としないビデオ入力を直接処理するビデオベースの3D-MLLMであるVid-LLMを提案する。
本手法では, 偏見の知覚性能を向上させるために, 幾何先行法を直接的に用いた。
各種ベンチマーク実験により,3次元質問応答,3次元キャプション,3次元視覚的接地作業において,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-09-29T07:34:18Z) - TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。
既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。
本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:28:06Z) - Unleashing the Multi-View Fusion Potential: Noise Correction in VLM for Open-Vocabulary 3D Scene Understanding [15.86865606131156]
MVOV3Dはオープンな3Dシーン理解のための2次元多視点融合の可能性の解放を目的とした新しいアプローチである。
具体的には、MVOV3Dは、CLIPエンコーダでエンコードされた正確な領域レベルの画像特徴とテキスト特徴を活用することで、マルチビュー2D機能を改善する。
ScanNet200では14.7% mIoU,Matterport160では16.2% mIoU,オープン語彙セマンティックセマンティックセグメンテーションでは14.7% mIoUを達成した。
論文 参考訳(メタデータ) (2025-06-28T08:40:42Z) - LSVG: Language-Guided Scene Graphs with 2D-Assisted Multi-Modal Encoding for 3D Visual Grounding [15.944945244005952]
3Dビジュアルグラウンドティングは、自然言語で記述されたユニークなターゲットを3Dシーンでローカライズすることを目的としている。
本稿では,言語誘導型シーングラフを参照オブジェクト識別で構築する新しい3次元ビジュアルグラウンドディングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-07T02:02:15Z) - NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation [14.046423852723615]
本稿では,3次元ガウシアン・スプレイティングに基づくハードビジュアル・プロンプト手法を導入し,対象物に関する多様な視点を創出する。
提案手法は現実的な3次元視点をシミュレートし,既存のハード・ビジュアル・プロンプトを効果的に増強する。
このトレーニングフリー戦略は、事前のハード・ビジュアル・プロンプトとシームレスに統合され、オブジェクト記述的特徴が強化される。
論文 参考訳(メタデータ) (2025-04-20T14:39:27Z) - Empowering Large Language Models with 3D Situation Awareness [84.12071023036636]
3Dと2Dの主な違いは、3Dシーンにおける自我中心のオブザーバーの状況が変化し、異なる記述をもたらすことである。
本研究では,データ収集時の走査軌道を利用して状況認識データセットを自動的に生成する手法を提案する。
本研究では,観測者の視点の位置と方向を明示的に予測する状況接地モジュールを導入し,LLMが3次元シーンで状況記述をグラウンド化できるようにする。
論文 参考訳(メタデータ) (2025-03-29T09:34:16Z) - Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - 3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance [61.06034736050515]
単一入力画像からカメラ制御された視点を生成する方法を提案する。
本手法は,広範囲なトレーニングや3Dおよびマルチビューデータなしで,複雑で多様なシーンを処理できることに優れる。
論文 参考訳(メタデータ) (2024-08-12T13:53:40Z) - Point Cloud Self-supervised Learning via 3D to Multi-view Masked Learner [19.908670991088556]
本稿では,3次元と投影された2次元特徴から点雲と多視点画像を再構成する3次元から多視点自動エンコーダを提案する。
2次元と3次元の表現を整合させる新しい2段階の自己学習戦略が提案されている。
提案手法は,3次元分類,部分分割,オブジェクト検出など,さまざまな下流タスクにおいて,最先端のタスクよりも優れる。
論文 参考訳(メタデータ) (2023-11-17T22:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。