論文の概要: A ROS 2 Wrapper for Florence-2: Multi-Mode Local Vision-Language Inference for Robotic Systems
- arxiv url: http://arxiv.org/abs/2604.01179v1
- Date: Wed, 01 Apr 2026 17:29:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.121433
- Title: A ROS 2 Wrapper for Florence-2: Multi-Mode Local Vision-Language Inference for Robotic Systems
- Title(参考訳): フィレンツェ2用ROS2ラッパー:ロボットシステムのための多モード局所視覚言語推論
- Authors: J. E. Domínguez-Vidal,
- Abstract要約: 本稿では、3つの相補的な相互作用モードを通してモデルを公開するFlorence-2用のROS 2ラッパーについて述べる。
ラッパーはローカル実行用に設計されており、ネイティブインストールとDockerコンテナのデプロイの両方をサポートする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Foundation vision-language models are becoming increasingly relevant to robotics because they can provide richer semantic perception than narrow task-specific pipelines. However, their practical adoption in robot software stacks still depends on reproducible middleware integrations rather than on model quality alone. Florence-2 is especially attractive in this regard because it unifies captioning, optical character recognition, open-vocabulary detection, grounding and related vision-language tasks within a comparatively manageable model size. This article presents a ROS 2 wrapper for Florence-2 that exposes the model through three complementary interaction modes: continuous topic-driven processing, synchronous service calls and asynchronous actions. The wrapper is designed for local execution and supports both native installation and Docker container deployment. It also combines generic JSON outputs with standard ROS 2 message bindings for detection-oriented tasks. A functional validation is reported together with a throughput study on several GPUs, showing that local deployment is feasible with consumer grade hardware. The repository is publicly available here: https://github.com/JEDominguezVidal/florence2_ros2_wrapper
- Abstract(参考訳): ファンデーションビジョン言語モデルは、狭いタスク固有のパイプラインよりもリッチなセマンティックな知覚を提供することができるため、ロボット工学にますます関係を増している。
しかし、ロボットソフトウェアスタックへの実践的な採用は、モデル品質のみではなく再現可能なミドルウェアの統合に依存している。
フィレンツェ2はキャプション、光学的文字認識、オープン語彙検出、接地および関連する視覚言語タスクを比較的管理可能なモデルサイズで統合するので、この点において特に魅力的である。
本稿では、連続トピック駆動処理、同期サービス呼び出し、非同期アクションの3つの相補的な相互作用モードを通じてモデルを公開するFlorence-2用のROS 2ラッパーを紹介します。
ラッパーはローカル実行用に設計されており、ネイティブインストールとDockerコンテナのデプロイの両方をサポートする。
また、ジェネリックJSON出力と、検出指向タスクのための標準のROS 2メッセージバインディングを組み合わせる。
機能検証は、いくつかのGPUのスループット調査と合わせて報告されており、ローカルデプロイメントがコンシューマグレードのハードウェアで実現可能であることを示している。
https://github.com/JEDominguezVidal/florence2_ros2_wrapper
関連論文リスト
- A Serverless Edge-Native Data Processing Architecture for Autonomous Driving Training [0.0]
本稿では,車載データフィルタリングとユーザ定義関数による処理が可能なエッジネイティブプラットフォームであるフレームワークを紹介する。
NVIDIA Jetson Orin Nano上でフレームワークを評価し、ネイティブのROS 2デプロイメントと比較する。
その結果、競合性能、レイテンシの低減、ジッタが示され、Lambdaベースの抽象化が組み込み自律運転システムでリアルタイムデータ処理をサポートできることが確認された。
論文 参考訳(メタデータ) (2026-01-30T12:41:11Z) - TDHook: A Lightweight Framework for Interpretability [0.0]
ディープニューラルネットワーク(DNN)の解釈可能性 (Interpretability of Deep Neural Networks, DNN) は、視覚と言語モデルの研究による成長分野である。
私たちは、$texttttensordict$をベースとしたオープンソースで軽量で汎用的な解釈可能性フレームワークであるTDHookを紹介します。
コンピュータビジョン、自然言語処理、強化学習、その他のドメインのためにトレーニングできる複雑な構成モデルを扱うことに焦点を当てている。
論文 参考訳(メタデータ) (2025-09-29T20:28:43Z) - Multiscale Vision Transformers meet Bipartite Matching for efficient single-stage Action Localization [27.472705540825316]
アクションローカライゼーションは、しばしば別々に対処される検出タスクと認識タスクを組み合わせた、困難な問題である。
両タスクを両パートマッチングでトレーニングした単一のMViTv2-Sアーキテクチャが,RoIで事前計算した有界ボックス上でトレーニングした場合,同一のMViTv2-Sを超えることを示す。
論文 参考訳(メタデータ) (2023-12-29T17:08:38Z) - MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - ESPnet-ST-v2: Multipurpose Spoken Language Translation Toolkit [61.52122386938913]
ESPnet-ST-v2はオープンソースのESPnet-STツールキットを改良したものである。
本稿では,ESPnet-ST-v2の裏側における全体的な設計,各タスクのサンプルモデル,パフォーマンスベンチマークについて述べる。
論文 参考訳(メタデータ) (2023-04-10T14:05:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。