論文の概要: SJTU:Spatial judgments in multimodal models towards unified segmentation through coordinate detection
- arxiv url: http://arxiv.org/abs/2412.02565v1
- Date: Tue, 03 Dec 2024 16:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:18.059556
- Title: SJTU:Spatial judgments in multimodal models towards unified segmentation through coordinate detection
- Title(参考訳): SJTU:座標検出による統一セグメンテーションに向けたマルチモーダルモデルの空間的判断
- Authors: Joongwon Chae, Zhenyu Wang, Peiwu Qin,
- Abstract要約: 本稿では,マルチモーダルモデルにおける空間的判断 -座標検出による統一セグメンテーションを目指して-
マルチモーダル空間推論に基づく視覚言語モデルとのセグメンテーション手法の統合手法を提案する。
提案した技術的アプローチに基づいて、このフレームワークは様々なベンチマークデータセットと正確なオブジェクトセグメンテーションで優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 4.930667479611019
- License:
- Abstract: Despite advances in vision-language understanding, implementing image segmentation within multimodal architectures remains a fundamental challenge in modern artificial intelligence systems. Existing vision-language models, which primarily rely on backbone architectures or CLIP-based embedding learning, demonstrate inherent limitations in fine-grained spatial localization and operational capabilities. This paper introduces SJTU: Spatial Judgments in multimodal models - Towards Unified segmentation through coordinate detection, a novel framework that leverages spatial coordinate understanding to bridge vision-language interaction and precise segmentation, enabling accurate target identification through natural language instructions. The framework proposes a novel approach for integrating segmentation techniques with vision-language models based on multimodal spatial inference. By leveraging normalized coordinate detection for bounding boxes and translating it into actionable segmentation outputs, we explore the possibility of integrating multimodal spatial and language representations. Based on the proposed technical approach, the framework demonstrates superior performance on various benchmark datasets as well as accurate object segmentation. Results on the COCO 2017 dataset for general object detection and Pascal VOC datasets for semantic segmentation demonstrate the generalization capabilities of the framework.
- Abstract(参考訳): 視覚言語理解の進歩にもかかわらず、マルチモーダルアーキテクチャにおけるイメージセグメンテーションの実装は、現代の人工知能システムにおける根本的な課題である。
既存の視覚言語モデルは、主にバックボーンアーキテクチャやCLIPベースの埋め込み学習に依存している。
本稿では,複数モーダルモデルにおける空間的判断 - 座標検出による統一的セグメンテーションを目指して - 空間的座標理解を利用して,視覚-言語間相互作用と正確なセグメンテーションを橋渡しし,自然言語命令による正確なターゲット識別を可能にする,新しいフレームワークを提案する。
このフレームワークは,マルチモーダル空間推論に基づく視覚言語モデルとセグメンテーション手法を統合する新しい手法を提案する。
正規化座標検出をバウンディングボックスに利用し、動作可能なセグメンテーション出力に変換することにより、マルチモーダル空間および言語表現の統合の可能性を探る。
提案した技術的アプローチに基づいて、このフレームワークは様々なベンチマークデータセットと正確なオブジェクトセグメンテーションで優れたパフォーマンスを示す。
汎用オブジェクト検出のためのCOCO 2017データセットとセマンティックセグメンテーションのためのPascal VOCデータセットの結果は、フレームワークの一般化能力を示している。
関連論文リスト
- Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation [8.443350618722564]
本稿では,注目機構と組み合わさった改良されたUnetモデルを提案する。
チャネルアテンションと空間アテンションモジュールを導入し、重要な特徴にフォーカスするモデルの能力を強化する。
改良されたモデルは、mIoUとピクセル精度(PA)でよく機能し、それぞれ76.5%と95.3%に達した。
論文 参考訳(メタデータ) (2025-02-06T06:51:23Z) - Multi-Level Embedding and Alignment Network with Consistency and Invariance Learning for Cross-View Geo-Localization [2.733505168507872]
CVGL(Cross-View Geo-Localization)は、最もよく似たGPSタグ付き衛星画像を取得することで、ドローン画像のローカライゼーションを決定する。
既存の手法は、モデルの性能を改善する際に、計算と記憶の要求が増大する問題をしばしば見落としている。
マルチレベル・エンベディング・アライメント・ネットワーク(MEAN)と呼ばれる軽量なアライメント・ネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-19T13:10:38Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - From Unimodal to Multimodal: Scaling up Projectors to Align Modalities [16.733970553781887]
そこで本研究では,事前学習した凍結アンモダルエンコーダ上の投影層のみを用いて,視覚と言語モダリティを整合させる手法を提案する。
本手法は,よく訓練された視覚の埋め込み空間と言語モデルとのセマンティックな類似性を利用した。
これには、潜在空間における意味的に類似したエンコーダの選択、イメージキャプチャペアの概念豊富なデータセットのキュレーション、シンプルなプロジェクタのトレーニングが含まれる。
論文 参考訳(メタデータ) (2024-09-28T17:57:32Z) - GLCONet: Learning Multi-source Perception Representation for Camouflaged Object Detection [23.872633359324098]
我々はGLCONetと呼ばれる新しいグローバルローカル協調最適化ネットワークを提案する。
本稿では、まず、局所的な詳細とグローバルな長距離関係を同時にモデル化するための協調最適化戦略を設計する。
実験により、異なるバックボーンを持つGLCONet法は、画像中の潜在的に重要なピクセルを効果的に活性化できることが示されている。
論文 参考訳(メタデータ) (2024-09-15T02:26:17Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal
Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。