論文の概要: Improved Vision-to-Chart Buoy Association with Learned World-to-Image Projection
- arxiv url: http://arxiv.org/abs/2605.22942v1
- Date: Thu, 21 May 2026 18:17:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.052396
- Title: Improved Vision-to-Chart Buoy Association with Learned World-to-Image Projection
- Title(参考訳): 学習したワールド・ツー・イメージ投影によるビジョン・ツー・チャート・ブイ・アソシエーションの改善
- Authors: Borja Carrillo-Perez,
- Abstract要約: 本報告では,MACVi 2026 Vision-to-Chartデータアソシエーションチャレンジに対して,DETRベースの核融合トランスフォーマーベースラインを軽量に修正する。
F1 = 0.8055 と mIoU = 0.6718 の合計スコアは 0.7386 であり、全ての応募のうち2位である。
- 参考スコア(独自算出の注目度): 0.8122270502556375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report presents a lightweight modification to the DETR-based fusion transformer baseline for the MaCVi 2026 Vision-to-Chart data association challenge. The challenge baseline decoder receives per-buoy queries encoding world-space distance and bearing, forcing the transformer to implicitly learn the complex geometric projection from world coordinates to image pixels. Instead, this work trains an additional dedicated MLP, QueryMLP, to explicitly predict the buoy's waterline contact point in the image from chart measurements and IMU orientation data. The predicted pixel coordinates are appended to the baseline decoder query vector, providing a direct spatial prior per buoy and reducing the geometric reasoning burden on the transformer decoder. On the challenge leaderboard, the presented approach achieves an Overall score of 0.7386, with F1 = 0.8055 and mIoU = 0.6718, on the held-out test set, placing second among all submissions.
- Abstract(参考訳): 本報告では,MACVi 2026 Vision-to-Chartデータアソシエーションチャレンジに対して,DETRベースの核融合トランスフォーマーベースラインを軽量に修正する。
チャレンジベースラインデコーダは、世界空間距離とベアリングを符号化したブイ毎のクエリを受け取り、トランスフォーマーは、世界座標から画像画素への複雑な幾何学的投影を暗黙的に学習する。
代わりに、この研究は、チャート測定とIMU向きデータから画像中のブイの水線接触点を明示的に予測する専用のMLP、QueryMLPをトレーニングする。
予測された画素座標をベースラインデコーダクエリベクトルに付加し、ブイ毎の直接空間事前を提供し、変圧器デコーダの幾何学的推論負担を低減する。
F1 = 0.8055 と mIoU = 0.6718 の合計スコアは0.7386 であり、全ての応募のうち2位である。
関連論文リスト
- Any Resolution Any Geometry: From Multi-View To Multi-Patch [46.8276232687626]
Ultra Resolution Geometry Transformer (URGT) は、VGGT (Visual Geometry Grounded Transformer) をモノクル高分解能深度正規推定のための統一マルチパッチトランスに適合させる。
1つの高解像度画像は、事前訓練されたモデルから粗い深さと通常の先行値で拡張されたパッチに分割され、1つの前方通過で共同処理され、洗練された幾何出力を予測する。
提案手法はUnrealStereo4Kの最先端化を実現し,AbsRelを0.0582から0.0291に,RMSEを2.17から1.3に削減する。
論文 参考訳(メタデータ) (2026-03-03T14:18:24Z) - Geometry OR Tracker: Universal Geometric Operating Room Tracking [61.399734016038614]
手術室(OR)では、世界規模のマルチビュー3Dトラッキングは、外科医の行動認識のような下流のアプリケーションをサポートする。
カメラのキャリブレーションとRGB-Dの登録は常に信頼性が低く、幾何学的不整合が生じる。
我々は、不正確なキャリブレーションをスケール一貫性と幾何学的に整合したカメラ設定に修正する2段階パイプラインであるGeometry OR Trackerを紹介する。
論文 参考訳(メタデータ) (2026-02-28T09:21:21Z) - Point Virtual Transformer [3.8019970256582094]
LiDARベースの3Dオブジェクト検出器は、遠距離の物体を検出するのに苦労することが多い。
変換器をベースとした3Dオブジェクト検出フレームワークであるPoint Virtual Transformer (PointViT) について述べる。
このフレームワークは、初期の点レベル融合からBEVベースのゲート融合まで、複数の融合戦略を調べ、精度と効率の観点からそれらのトレードオフを分析する。
論文 参考訳(メタデータ) (2026-02-04T23:44:53Z) - SMGeo: Cross-View Object Geo-Localization with Grid-Level Mixture-of-Experts [4.521626189942935]
クロスビューオブジェクト ジオローカライゼーションは、ドローン画像に基づいて、大規模な衛星画像間で同じ物体を正確に特定することを目的としている。
SMGeoは、オブジェクトジオローカライゼーションのための、高速でエンドツーエンドなトランスフォーマベースモデルである。
論文 参考訳(メタデータ) (2025-11-18T03:21:20Z) - Grid-Reg: Detector-Free Gridized Feature Learning and Matching for Large-Scale SAR-Optical Image Registration [22.80821597640134]
大規模で異質なSARと光学画像、特にプラットフォーム間での登録は非常に困難である。
これらの課題を克服するため,グリッドベースのマルチモーダル登録フレームワークであるGrid-Regを提案する。
提案手法は最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-07-06T03:43:18Z) - RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - SGFormer: Spherical Geometry Transformer for 360 Depth Estimation [52.23806040289676]
パノラマ歪みは360度深度推定において大きな課題となる。
本稿では,SGFormer という球面形状変換器を提案し,上記の問題に対処する。
また、様々な解像度で空間構造を補うために、クエリベースの大域的条件位置埋め込みを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:36:24Z) - T-Pixel2Mesh: Combining Global and Local Transformer for 3D Mesh Generation from a Single Image [84.08705684778666]
本稿では,P2Mの粗大なアプローチにインスパイアされたトランスフォーマーブーストアーキテクチャT-Pixel2Meshを提案する。
具体的には,大域変換器を用いて局所的な形状を制御し,局所的な幾何学的詳細を洗練させる。
ShapeNetの実験では最先端の性能が実証され,実世界のデータでは一般化能力が示された。
論文 参考訳(メタデータ) (2024-03-20T15:14:22Z) - A Large Scale Homography Benchmark [52.55694707744518]
1DSfMデータセットから10万枚の画像から約1000個の平面が観測された3D, Pi3Dの平面の大規模データセットを示す。
また,Pi3Dを利用した大規模ホモグラフィ推定ベンチマークであるHEBを提案する。
論文 参考訳(メタデータ) (2023-02-20T14:18:09Z) - 6D-ViT: Category-Level 6D Object Pose Estimation via Transformer-based
Instance Representation Learning [0.0]
6D-ViTはトランスフォーマーベースのインスタンス表現学習ネットワークである。
RGB-D画像の高精度なカテゴリレベルのオブジェクトポーズ推定に適している。
論文 参考訳(メタデータ) (2021-10-10T13:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。