Fugu-MT 論文翻訳(概要): Grid-augumented vision: A simple yet effective approach for enhanced spatial understanding in multi-modal agents

論文の概要: Grid-augumented vision: A simple yet effective approach for enhanced spatial understanding in multi-modal agents

arxiv url: http://arxiv.org/abs/2411.18270v1
Date: Wed, 27 Nov 2024 12:05:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:53.650739
Title: Grid-augumented vision: A simple yet effective approach for enhanced spatial understanding in multi-modal agents
Title（参考訳）: グリッド・オーグメンテッド・ビジョン:マルチモーダルエージェントにおける空間的理解のシンプルかつ効果的なアプローチ
Authors: Joongwon Chae, Zhenyu Wang, Peiwu Qin,
Abstract要約: 本稿では,単純なグリッドオーバーレイ手法を用いて,視覚的位置を明示的に符号化する手法を提案する。本手法は,トランスにおける位置符号化の動作に類似した視覚的空間的ガイダンスを提供する。提案手法の単純さと有効性は,空間的推論の正確性を必要とするアプリケーションにとって特に有用である。
参考スコア（独自算出の注目度）: 4.930667479611019
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in multimodal models have demonstrated impressive capabilities in object recognition and scene understanding. However, these models often struggle with precise spatial localization - a critical capability for real-world applications. Inspired by how humans use grid-based references like chess boards and maps, we propose introducing explicit visual position encoding through a simple grid overlay approach. By adding a 9x9 black grid pattern onto input images, our method provides visual spatial guidance analogous to how positional encoding works in transformers, but in an explicit, visual form. Experiments on the COCO 2017 dataset demonstrate that our grid-based approach achieves significant improvements in localization accuracy, with a 107.4% increase in IoU (from 0.27 to 0.56) and a 194.4% improvement in GIoU (from 0.18 to 0.53) compared to baseline performance. Through attention visualization analysis, we show how this visual position encoding helps models better ground spatial relationships. Our method's simplicity and effectiveness make it particularly valuable for applications requiring accurate spatial reasoning, such as robotic manipulation, medical imaging, and autonomous navigation.
Abstract（参考訳）: マルチモーダルモデルの最近の進歩は、オブジェクト認識とシーン理解における印象的な能力を示している。しかしながら、これらのモデルは、実世界のアプリケーションにとって重要な能力である、正確な空間的ローカライゼーションに苦しむことが多い。チェス盤や地図などのグリッドベースの参照の使い方に着想を得て,単純なグリッドオーバーレイアプローチによる視覚的位置符号化を提案する。入力画像に9x9の黒格子パターンを加えることで、位置符号化がトランスフォーマーでどのように機能するかに類似した視覚的空間的ガイダンスを提供する。 COCO 2017データセットの実験によると、我々のグリッドベースのアプローチは、IoU(0.27から0.56)が107.4%増加し、GIoU(0.18から0.53)が194.4%改善され、ローカライズ精度が大幅に向上している。注目の可視化分析により,この視覚的位置エンコーディングが空間的関係のモデル構築にどのように役立つかを示す。本手法の簡便さと有効性は,ロボット操作,医用画像,自律ナビゲーションなど,正確な空間推論を必要とするアプリケーションにとって特に有用である。

関連論文リスト

Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。 LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文参考訳（メタデータ） (2025-05-17T10:22:29Z)
Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文参考訳（メタデータ） (2025-03-11T03:58:17Z)
SaliencyI2PLoc: saliency-guided image-point cloud localization using contrastive learning [17.29563451509921]
SaliencyI2PLocは、Saliencyマップを機能集約に融合させる、対照的な学習アーキテクチャである。本手法は,都市シナリオ評価データセット上で78.92%のRecall@1と97.59%のRecall@20を実現する。
論文参考訳（メタデータ） (2024-12-20T05:20:10Z)
SJTU:Spatial judgments in multimodal models towards unified segmentation through coordinate detection [4.930667479611019]
本稿では,マルチモーダルモデルにおける空間的判断 -コーディネート検出による統一を目指して- マルチモーダル空間における空間推論を通した視覚言語モデルとのセグメンテーション手法の統合手法を提案する。ベンチマークデータセット間で優れたパフォーマンスを示し、COCO 2017では0.5958、Pascal VOCでは0.6758、IoUスコアを達成しました。
論文参考訳（メタデータ） (2024-12-03T16:53:58Z)
Monocular Localization with Semantics Map for Autonomous Vehicles [8.242967098897408]
低レベルのテクスチャ機能の代わりに安定したセマンティック機能を利用する新しい視覚的セマンティックローカライゼーションアルゴリズムを提案する。まず、セマンティックマップは、カメラやLiDARセンサーを使用して、グラウンドマーカー、レーンライン、ポールなどのセマンティックオブジェクトを検出してオフラインで構築される。オンラインの視覚的ローカライゼーションは意味的特徴とマップオブジェクトのデータアソシエーションによって行われる。
論文参考訳（メタデータ） (2024-06-06T08:12:38Z)
Getting it Right: Improving Spatial Consistency in Text-to-Image Models [103.52640413616436]
現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。 4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。対象物を多数含む画像のトレーニングは,500枚の画像の微調整により,T2I-CompBenchの空間スコア0.2133の最先端結果を含む空間的整合性を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-04-01T15:55:25Z)
Neural Point-based Volumetric Avatar: Surface-guided Neural Points for Efficient and Photorealistic Volumetric Head Avatar [62.87222308616711]
ニューラルポイント表現とニューラルボリュームレンダリングプロセスを採用したフルネーム(名前)を提案する。具体的には、ニューラルポイントは高分解能UV変位マップを介してターゲット表現の表面を戦略的に拘束する。設計上は,アバターをアニメーションする際の正確な表現制御を確保しつつ,地形的に変化する領域や細い構造を扱えるように設計されている。
論文参考訳（メタデータ） (2023-07-11T03:40:10Z)
Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。 GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。 BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文参考訳（メタデータ） (2023-04-06T14:33:05Z)
On the Application of Efficient Neural Mapping to Real-Time Indoor Localisation for Unmanned Ground Vehicles [5.137284292672375]
組込みプラットフォーム上でのリアルタイム推論が可能なコンパクトモデルを用いて,数cmの局所化精度を実現する。トレーニングされたモデルをUGVプラットフォームにデプロイし、その効果をウェイポイントナビゲーションタスクで実証する。
論文参考訳（メタデータ） (2022-11-09T07:23:28Z)
Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文参考訳（メタデータ） (2022-07-04T17:00:51Z)
Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-11-01T19:24:27Z)
Self-supervised Video Representation Learning by Uncovering Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文参考訳（メタデータ） (2020-08-31T08:31:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。