論文の概要: GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding
- arxiv url: http://arxiv.org/abs/2503.10596v1
- Date: Thu, 13 Mar 2025 17:43:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:31.125744
- Title: GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding
- Title(参考訳): GroundingSuite: 複合多角形接地測定
- Authors: Rui Hu, Lianghui Zhu, Yuxuan Zhang, Tianheng Cheng, Lei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang,
- Abstract要約: GroundingSuiteは、ビジョンと言語モダリティのギャップを埋めることを目指している。
1)複数のVision-Language Model(VLM)エージェントを活用する自動データアノテーションフレームワーク,(2)9.56万の多様な参照表現とその対応するセグメンテーションを含む大規模トレーニングデータセット,(3)3800の画像からなる精巧にキュレートされた評価ベンチマーク。
- 参考スコア(独自算出の注目度): 39.967352995143855
- License:
- Abstract: Pixel grounding, encompassing tasks such as Referring Expression Segmentation (RES), has garnered considerable attention due to its immense potential for bridging the gap between vision and language modalities. However, advancements in this domain are currently constrained by limitations inherent in existing datasets, including limited object categories, insufficient textual diversity, and a scarcity of high-quality annotations. To mitigate these limitations, we introduce GroundingSuite, which comprises: (1) an automated data annotation framework leveraging multiple Vision-Language Model (VLM) agents; (2) a large-scale training dataset encompassing 9.56 million diverse referring expressions and their corresponding segmentations; and (3) a meticulously curated evaluation benchmark consisting of 3,800 images. The GroundingSuite training dataset facilitates substantial performance improvements, enabling models trained on it to achieve state-of-the-art results. Specifically, a cIoU of 68.9 on gRefCOCO and a gIoU of 55.3 on RefCOCOm. Moreover, the GroundingSuite annotation framework demonstrates superior efficiency compared to the current leading data annotation method, i.e., $4.5 \times$ faster than the GLaMM.
- Abstract(参考訳): Referring Expression Segmentation (RES) のようなタスクを含むピクセルグラウンドは、視覚と言語モダリティのギャップを埋める大きな可能性を秘めているため、かなりの注目を集めている。
しかしながら、この領域の進歩は、オブジェクトカテゴリの制限、テキストの多様性の不足、高品質なアノテーションの不足など、既存のデータセットに固有の制限によって制限されている。
これらの制限を緩和するために,(1)複数のビジョンランゲージモデル(VLM)エージェントを活用する自動データアノテーションフレームワーク,(2)9.56万の多様な参照表現とその対応するセグメンテーションを含む大規模トレーニングデータセット,(3)3800の画像からなる精巧にキュレートされた評価ベンチマークを含む,GundingSuiteを紹介した。
GroundingSuiteトレーニングデータセットは、大幅なパフォーマンス向上を促進し、トレーニングされたモデルが最先端の結果を達成することを可能にする。
具体的には、gRefCOCOに68.9のcIoU、RefCOCOmに55.3のgIoUがある。
さらに、GroundingSuiteアノテーションフレームワークは、現在のリードデータアノテーションメソッド、すなわち、GLaMMよりも4.5 \times$高速であるよりも優れた効率を示す。
関連論文リスト
- Few-shot Semantic Learning for Robust Multi-Biome 3D Semantic Mapping in Off-Road Environments [4.106846770364469]
オフロード環境は、高速自律航法において重要な認識課題をもたらす。
本稿では,500枚の画像,スパース,粗いラベル付き(30%ピクセル)マルチバイオームデータセットを微調整し,事前学習したビジョントランスフォーマー(ViT)を活用するアプローチを提案する。
これらのクラスは、新しいレンジベースの計量によって時間とともに融合され、3Dセマンティックなボクセルマップに集約される。
論文 参考訳(メタデータ) (2024-11-10T23:52:24Z) - PointViG: A Lightweight GNN-based Model for Efficient Point Cloud Analysis [42.187844778761935]
本研究では,点雲解析のための効率的なフレームワークであるb>Pointb>sion b>Gb>NN(PointViG)を紹介する。
PointViGには、ローカル機能を効率的に集約する軽量なグラフ畳み込みモジュールが組み込まれている。
実験により、PointViGは最先端のモデルに匹敵する性能を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T02:55:45Z) - 3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset [13.808860456901204]
3DBenchと呼ばれる大規模命令チューニングデータセットを伴って,スケーラブルな3Dベンチマークを導入する。
具体的には、オブジェクトレベルからシーンレベルまで、幅広い空間的・意味的なスケールにまたがるベンチマークを確立する。
我々は、スケーラブルな3D命令チューニングデータセットを自動構築するための厳格なパイプラインを提案し、合計0.23百万QAペアが生成される10の多様なマルチモーダルタスクをカバーしている。
論文 参考訳(メタデータ) (2024-04-23T02:06:10Z) - ECLAIR: A High-Fidelity Aerial LiDAR Dataset for Semantic Segmentation [0.5277756703318045]
ECLAIRは、ポイントクラウドセマンティックセグメンテーションの研究を進めるために特別に設計された、屋外の大規模なLiDARデータセットである。
データセットの総面積は10$km2$で6億点近くあり、11の異なるオブジェクトカテゴリが特徴である。
このデータセットは、3D都市モデリング、シーン理解、ユーティリティインフラストラクチャ管理といった分野を前進させるために設計されている。
論文 参考訳(メタデータ) (2024-04-16T16:16:40Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - Improving Visual Grounding by Encouraging Consistent Gradient-based
Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。
AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文 参考訳(メタデータ) (2022-06-30T17:55:12Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - G-RCN: Optimizing the Gap between Classification and Localization Tasks
for Object Detection [3.620272428985414]
分類タスクと局所化タスクの高レベルな特徴の共有は準最適であることを示す。
我々はギャップ最適化領域ベース畳み込みネットワーク(G-RCN)というパラダイムを提案する。
新しい手法は、VGG16、ResNet50、ResNet101のバックボーンを持つFaster R-CNNに適用される。
論文 参考訳(メタデータ) (2020-11-14T04:14:01Z) - Grounded Situation Recognition [56.18102368133022]
画像の構造的要約を生成することを必要とする課題であるグラウンドドコンディション認識(GSR)を導入する。
GSRはセマンティック・サリエンシの識別、大規模で多様なエンティティの分類とローカライズという重要な技術的課題を提示している。
我々は,条件付きクエリ,視覚連鎖,接地型セマンティック・アウェアネス・イメージ検索の3つのモデルによって実現される3つの将来方向について,最初の知見を示す。
論文 参考訳(メタデータ) (2020-03-26T17:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。