論文の概要: RGBT-Ground Benchmark: Visual Grounding Beyond RGB in Complex Real-World Scenarios
- arxiv url: http://arxiv.org/abs/2512.24561v1
- Date: Wed, 31 Dec 2025 02:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.533441
- Title: RGBT-Ground Benchmark: Visual Grounding Beyond RGB in Complex Real-World Scenarios
- Title(参考訳): RGBT-Groundベンチマーク:複雑な実世界のシナリオにおけるRGBを超えるビジュアルグラウンド
- Authors: Tianyi Zhao, Jiawen Xi, Linhui Xiao, Junnan Li, Xue Yang, Maoxun Yuan, Xingxing Wei,
- Abstract要約: RGBT-Groundは、複雑な実世界のシナリオ向けに構築された最初の大規模ビジュアルグラウンドベンチマークである。
空間的に整列したRGBと熱赤外(TIR)画像対と、高品質な参照表現、対応するオブジェクト境界ボックス、シーン、環境、オブジェクトレベルの細かいアノテーションから構成される。
このベンチマークは、総合的な評価を可能にし、多様で挑戦的な条件下での堅牢な接地の研究を容易にする。
- 参考スコア(独自算出の注目度): 37.32297511767527
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual Grounding (VG) aims to localize specific objects in an image according to natural language expressions, serving as a fundamental task in vision-language understanding. However, existing VG benchmarks are mostly derived from datasets collected under clean environments, such as COCO, where scene diversity is limited. Consequently, they fail to reflect the complexity of real-world conditions, such as changes in illumination, weather, etc., that are critical to evaluating model robustness and generalization in safety-critical applications. To address these limitations, we present RGBT-Ground, the first large-scale visual grounding benchmark built for complex real-world scenarios. It consists of spatially aligned RGB and Thermal infrared (TIR) image pairs with high-quality referring expressions, corresponding object bounding boxes, and fine-grained annotations at the scene, environment, and object levels. This benchmark enables comprehensive evaluation and facilitates the study of robust grounding under diverse and challenging conditions. Furthermore, we establish a unified visual grounding framework that supports both uni-modal (RGB or TIR) and multi-modal (RGB-TIR) visual inputs. Based on it, we propose RGBT-VGNet, a simple yet effective baseline for fusing complementary visual modalities to achieve robust grounding. We conduct extensive adaptations to the existing methods on RGBT-Ground. Experimental results show that our proposed RGBT-VGNet significantly outperforms these adapted methods, particularly in nighttime and long-distance scenarios. All resources will be publicly released to promote future research on robust visual grounding in complex real-world environments.
- Abstract(参考訳): 視覚的グラウンドリング(VG)は、視覚言語理解の基本的なタスクとして機能し、自然言語表現に従って画像内の特定のオブジェクトをローカライズすることを目的としている。
しかしながら、既存のVGベンチマークは主に、シーンの多様性が制限されたCOCOのようなクリーンな環境下で収集されたデータセットから導かれる。
その結果、モデルロバスト性の評価や安全クリティカルな応用における一般化に欠かせない照明や天気の変化など、現実世界の状況の複雑さを反映することができない。
これらの制限に対処するため、RGBT-Groundは、複雑な実世界のシナリオのために構築された最初の大規模ビジュアルグラウンドベンチマークである。
空間的に整列したRGBと熱赤外(TIR)画像対と、高品質な参照表現、対応するオブジェクト境界ボックス、シーン、環境、オブジェクトレベルの細かいアノテーションから構成される。
このベンチマークは、総合的な評価を可能にし、多様で挑戦的な条件下での堅牢な接地の研究を容易にする。
さらに,一様モード (RGB または TIR) と多様モード (RGB-TIR) の両方の視覚入力をサポートする統合視覚基盤フレームワークを構築した。
そこで本研究では,RGBT-VGNetを提案する。
既存の手法をRGBT-Groundに幅広く適用する。
実験の結果,提案したRGBT-VGNetは,特に夜間・長距離のシナリオにおいて,これらの手法よりも優れていた。
すべてのリソースは、複雑な現実世界環境における堅牢な視覚的接地に関する将来の研究を促進するために公開されます。
関連論文リスト
- HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - Annotation-Free Open-Vocabulary Segmentation for Remote-Sensing Images [51.74614065919118]
本稿では,アノテーションのないRS画像のオープン語彙セグメンテーションのための最初のフレームワークであるSegEarth-OVを紹介する。
粗い特徴から高分解能空間の詳細を頑健に復元する普遍的なアップサンプラーであるSimFeatUpを提案する。
また、パッチ機能から固有のグローバルコンテキストを抽出するための、シンプルで効果的なグローバルバイアス緩和操作も提示する。
論文 参考訳(メタデータ) (2025-08-25T14:22:57Z) - OpenEarthSensing: Large-Scale Fine-Grained Benchmark for Open-World Remote Sensing [57.050679160659705]
オープンワールドリモートセンシングのための大規模きめ細かいベンチマークである textbfOpenEarthSensing (OES) を紹介する。
OESには189のシーンとオブジェクトのカテゴリが含まれており、現実世界で起こりうる潜在的なセマンティックシフトの大部分をカバーしている。
論文 参考訳(メタデータ) (2025-02-28T02:49:52Z) - Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [11.648973329789973]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。
本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:23:01Z) - RaSim: A Range-aware High-fidelity RGB-D Data Simulation Pipeline for Real-world Applications [55.24463002889]
我々は深度データ合成に焦点をあて、レンジ対応RGB-Dデータシミュレーションパイプライン(RaSim)を開発した。
特に、実世界のセンサーの撮像原理を模倣して高忠実度深度データを生成する。
RaSimは、下流のRGB-D知覚タスクで微調整をすることなく、現実世界のシナリオに直接適用することができる。
論文 参考訳(メタデータ) (2024-04-05T08:52:32Z) - Sim-to-Real Grasp Detection with Global-to-Local RGB-D Adaptation [19.384129689848294]
本稿では,RGB-Dグリップ検出のシム・ツー・リアル問題に着目し,ドメイン適応問題として定式化する。
本稿では,RGBと深度データにおけるハイブリッドドメインギャップに対処し,マルチモーダルな特徴アライメントが不十分なグローバル・ローカルな手法を提案する。
論文 参考訳(メタデータ) (2024-03-18T06:42:38Z) - Sim-To-Real Transfer of Visual Grounding for Human-Aided Ambiguity
Resolution [0.0]
視覚的接地という課題について考察し, エージェントは, 混み合ったシーンからオブジェクトを抽出し, 自然言語で記述する。
視覚的接地に対する現代の全体論的アプローチは、言語構造を無視し、ジェネリックドメインをカバーするのに苦労する。
実体,属性,空間関係の合成視覚的グラウンド化のための,完全に分離されたモジュラー・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-24T14:12:32Z) - SILG: The Multi-environment Symbolic Interactive Language Grounding
Benchmark [62.34200575624785]
マルチ環境対話型言語グラウンドベンチマーク(SILG)を提案する。
SILGは、新しいダイナミクス、エンティティ、部分的に観察された世界(RTFM、Messenger、NetHack)への一般化を必要とするグリッドワールド環境で構成されている。
SILGを用いた自己中心型局所的畳み込み,再帰状態追跡,エンティティ中心の注意,事前訓練によるLMなどの最近の進歩を評価した。
論文 参考訳(メタデータ) (2021-10-20T17:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。