論文の概要: RealVLG-R1: A Large-Scale Real-World Visual-Language Grounding Benchmark for Robotic Perception and Manipulation
- arxiv url: http://arxiv.org/abs/2603.14880v1
- Date: Mon, 16 Mar 2026 06:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.098655
- Title: RealVLG-R1: A Large-Scale Real-World Visual-Language Grounding Benchmark for Robotic Perception and Manipulation
- Title(参考訳): RealVLG-R1:ロボットの知覚と操作のための大規模実世界のビジュアルランゲージグラウンドベンチマーク
- Authors: Linfei Li, Lin Zhang, Ying Shen,
- Abstract要約: 視覚言語基盤は、自然言語と視覚的実体間の意味的対応を確立することを目的としている。
既存のVLGアプローチは粗い粒度のオブジェクトレベルのローカライゼーションに重点を置いている。
本稿では,RealVLG-11BデータセットとRealVLG-R1モデルを統合したRealVLGフレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.668895104080825
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual-language grounding aims to establish semantic correspondences between natural language and visual entities, enabling models to accurately identify and localize target objects based on textual instructions. Existing VLG approaches focus on coarse-grained, object-level localization, while traditional robotic grasping methods rely predominantly on geometric cues and lack language guidance, which limits their applicability in language-driven manipulation scenarios. To address these limitations, we propose the RealVLG framework, which integrates the RealVLG-11B dataset and the RealVLG-R1 model to unify real-world visual-language grounding and grasping tasks. RealVLG-11B dataset provides multi-granularity annotations including bounding boxes, segmentation masks, grasp poses, contact points, and human-verified fine-grained language descriptions, covering approximately 165,000 images, over 800 object instances, 1.3 million segmentation, detection, and language annotations, and roughly 11 billion grasping examples. Building on this dataset, RealVLG-R1 employs Reinforcement Fine-tuning on pretrained large-scale vision-language models to predict bounding boxes, segmentation masks, grasp poses, and contact points in a unified manner given natural language instructions. Experimental results demonstrate that RealVLG supports zero-shot perception and manipulation in real-world unseen environments, establishing a unified semantic-visual multimodal benchmark that provides a comprehensive data and evaluation platform for language-driven robotic perception and grasping policy learning. All data and code are publicly available at https://github.com/lif314/RealVLG-R1.
- Abstract(参考訳): 視覚言語基底は、自然言語と視覚的エンティティ間の意味的対応を確立することを目的としており、モデルがテキスト命令に基づいてターゲットオブジェクトを正確に識別し、ローカライズすることができる。
既存のVLGアプローチは粗い粒度のオブジェクトレベルのローカライゼーションに重点を置いているが、従来のロボットグルーピング手法は幾何学的手がかりに大きく依存しており、言語指導が欠如しているため、言語駆動操作シナリオにおける適用性が制限されている。
これらの制約に対処するため,RealVLG-11BデータセットとRealVLG-R1モデルを統合したRealVLGフレームワークを提案する。
RealVLG-11Bデータセットは、バウンディングボックス、セグメンテーションマスク、グリップポーズ、接触点、人間の検証済み言語記述を含む多言語アノテーションを提供し、約165,000のイメージ、800以上のオブジェクトインスタンス、13万のセグメンテーション、検出、言語アノテーション、約11億の把握例をカバーしている。
このデータセットに基づいて、RealVLG-R1は、トレーニング済みの大規模視覚言語モデルにReinforcement Fine-tuningを導入し、自然言語命令を与えられた統一的な方法で境界ボックス、セグメンテーションマスク、グリップポーズ、コンタクトポイントを予測する。
実験の結果,RealVLGは実世界の見えない環境でゼロショット認識と操作をサポートし,言語駆動型ロボット認識と把握ポリシー学習のための総合的データおよび評価プラットフォームを提供する統合意味視覚マルチモーダル・ベンチマークを構築した。
すべてのデータとコードはhttps://github.com/lif314/RealVLG-R1で公開されている。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Point What You Mean: Visually Grounded Instruction Policy [42.52502990975079]
Point-VLAは、言語命令を明示的な視覚的手がかりで拡張し、参照の曖昧さを解決するためのプラグアンドプレイポリシーである。
我々は,多種多様な実世界の参照タスクにおいてポイントVLAを評価し,テキストのみの命令VLAよりも一貫して強靭なパフォーマンスを観察する。
論文 参考訳(メタデータ) (2025-12-22T00:44:19Z) - Vision-Language Integration for Zero-Shot Scene Understanding in Real-World Environments [0.0]
本研究では,事前学習した視覚エンコーダと大規模言語モデルを統一する視覚言語統合フレームワークを提案する。
提案システムでは,トップ1の精度が最大18%向上し,セマンティック・コヒーレンス・メトリクスが顕著に向上した。
論文 参考訳(メタデータ) (2025-10-29T01:16:21Z) - DexVLG: Dexterous Vision-Language-Grasp Model at Scale [59.5613919093295]
ヒトのような器用な手のための大型モデルを用いた機能的握りの研究はほとんどない。
DexVLGは、言語命令に整合したDexterousグリップポーズ予測のための大型ビジョン言語-Graspモデルである。
シミュレーションでは、174,000個のオブジェクトのセマンティックな部分にマッピングされた1億1千万個のデキスタスなグリップポーズを、詳細な部分レベルのキャプションと組み合わせて生成する。
論文 参考訳(メタデータ) (2025-07-03T16:05:25Z) - Towards Explainable Bilingual Multimodal Misinformation Detection and Localization [64.37162720126194]
BiMiは、地域レベルのローカライゼーション、言語間および言語間整合性検出、誤情報解析のための自然言語説明を共同で行うフレームワークである。
BiMiBenchは、実際のニュース画像とサブタイトルを体系的に編集するベンチマークである。
BiMiは、分類精度が+8.9で、ローカライゼーション精度が+15.9で、BERTScoreを+2.5で上回る。
論文 参考訳(メタデータ) (2025-06-28T15:43:06Z) - IRef-VLA: A Benchmark for Interactive Referential Grounding with Imperfect Language in 3D Scenes [10.139461308573336]
IRef-VLAは、11.5K以上のスキャンされた3D部屋からなる参照グラウンドタスクのための、世界で最大のデータセットである。
我々は,ロバストでインタラクティブなナビゲーションシステムの開発を支援する3Dシーン理解のためのリソースの提供を目指している。
論文 参考訳(メタデータ) (2025-03-20T16:16:10Z) - Pushing the Limits of Vision-Language Models in Remote Sensing without Human Annotations [5.065947993017157]
本研究では、画像復号化機械学習モデルを用いて、視覚言語データセットをキュレートする手法を提案する。
約960万の視覚言語対のデータセットをVHR画像で収集しました。
結果として得られたモデルは、公開可能なビジョン言語データセットを活用できないものよりも優れていた。
論文 参考訳(メタデータ) (2024-09-11T06:36:08Z) - Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community [58.417475846791234]
LAEタスクのための最初のオープンボキャブラリ基礎オブジェクト検出器であるLAE-DINOモデルを提案し,訓練する。
我々は、確立されたリモートセンシングベンチマークDIOR、DOTAv2.0、および新たに発表された80クラスのLEE-80Cベンチマークについて実験を行った。
その結果, LAE-1Mデータセットの利点と, LAE-DINO法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-17T06:24:43Z) - Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。