論文の概要: AetherVision-Bench: An Open-Vocabulary RGB-Infrared Benchmark for Multi-Angle Segmentation across Aerial and Ground Perspectives
- arxiv url: http://arxiv.org/abs/2506.03709v1
- Date: Wed, 04 Jun 2025 08:41:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.238508
- Title: AetherVision-Bench: An Open-Vocabulary RGB-Infrared Benchmark for Multi-Angle Segmentation across Aerial and Ground Perspectives
- Title(参考訳): AetherVision-Bench: 航空・地上の多角セグメンテーションのためのオープン語彙RGB赤外線ベンチマーク
- Authors: Aniruddh Sikdar, Aditya Gandhamal, Suresh Sundaram,
- Abstract要約: 身近なAIシステムは、認識能力を高めて、地上車両やドローンの自律的なナビゲーションを変革している。
AetherVision-Benchは空中および地上の多角的セグメンテーションのベンチマークである。
提案したベンチマークを用いて最先端のOVSSモデルを評価し,ゼロショット転送モデルの性能に影響を及ぼす要因について検討する。
- 参考スコア(独自算出の注目度): 2.0293118701268154
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Open-vocabulary semantic segmentation (OVSS) involves assigning labels to each pixel in an image based on textual descriptions, leveraging world models like CLIP. However, they encounter significant challenges in cross-domain generalization, hindering their practical efficacy in real-world applications. Embodied AI systems are transforming autonomous navigation for ground vehicles and drones by enhancing their perception abilities, and in this study, we present AetherVision-Bench, a benchmark for multi-angle segmentation across aerial, and ground perspectives, which facilitates an extensive evaluation of performance across different viewing angles and sensor modalities. We assess state-of-the-art OVSS models on the proposed benchmark and investigate the key factors that impact the performance of zero-shot transfer models. Our work pioneers the creation of a robustness benchmark, offering valuable insights and establishing a foundation for future research.
- Abstract(参考訳): Open-vocabulary semantic segmentation (OVSS)は、CLIPのような世界モデルを活用するために、テキスト記述に基づいた画像内の各ピクセルにラベルを割り当てる。
しかし、それらはクロスドメインの一般化において重大な課題に遭遇し、現実世界の応用においてその実用性を妨げている。
そこで本研究では,地上および地上の視界を横断する多角的セグメンテーションのベンチマークであるAetherVision-Benchを提案する。
提案したベンチマークを用いて最先端のOVSSモデルを評価し,ゼロショット転送モデルの性能に影響を及ぼす要因について検討する。
私たちの研究は、ロバストネスベンチマークの作成の先駆者であり、貴重な洞察を提供し、将来の研究の基盤を確立しています。
関連論文リスト
- ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [47.237216851265316]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - Exploring Visual Embedding Spaces Induced by Vision Transformers for Online Auto Parts Marketplaces [0.0]
本研究では,オンラインマーケットプレースから得られる自動車部品の画像の視覚的埋め込み生成におけるビジョントランスフォーマーモデルの有用性について検討した。
単一モダリティデータにのみ焦点をあてることで、不正な活動を示すパターンを検出するViTの可能性を評価する。
論文 参考訳(メタデータ) (2025-02-09T03:24:03Z) - Semantic Segmentation of Unmanned Aerial Vehicle Remote Sensing Images using SegFormer [0.14999444543328289]
本稿では,UAV画像のセマンティックセグメンテーションのためのセマンティックセグメンテーションフレームワークであるSegFormerの有効性と効率を評価する。
SegFormerの変種は、リアルタイム(B0)から高性能(B5)モデルまで、セマンティックセグメンテーションタスクに適したUAVidデータセットを使用して評価される。
実験結果は、モデルの性能をベンチマークデータセットで示し、多様なUAVシナリオにおけるオブジェクトとランドカバーの特徴を正確に記述する能力を強調した。
論文 参考訳(メタデータ) (2024-10-01T21:40:15Z) - Geometric Features Enhanced Human-Object Interaction Detection [11.513009304308724]
我々は、新しいエンドツーエンド変換方式HOI検出モデル、すなわち幾何学的特徴強化HOI検出器(GeoHOI)を提案する。
モデルの1つの重要な部分は、UniPointNetと呼ばれる新しい統合された自己教師付きキーポイント学習方法である。
GeoHOIはトランスフォーマーをベースとしたHOI検出器を効果的にアップグレードする。
論文 参考訳(メタデータ) (2024-06-26T18:52:53Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。