論文の概要: Fine-Tuning Florence2 for Enhanced Object Detection in Un-constructed Environments: Vision-Language Model Approach
- arxiv url: http://arxiv.org/abs/2503.04918v4
- Date: Tue, 15 Apr 2025 09:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:07:44.600966
- Title: Fine-Tuning Florence2 for Enhanced Object Detection in Un-constructed Environments: Vision-Language Model Approach
- Title(参考訳): 未構築環境における物体検出のための微調整フィレンツェ2:視覚・言語モデルによるアプローチ
- Authors: Aysegul Ucar, Soumyadeep Ro, Sanapala Satwika, Pamarthi Yasoda Gayathri, Mohmmad Ghaith Balsha,
- Abstract要約: 非構成の複雑な環境における物体検出タスクのためのFlorence2モデルを微調整した。
最適化されたFlorence2モデルでは、オブジェクト検出精度が大幅に向上した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Vision-Language Models (VLMs) have emerged as powerful tools in artificial intelli-gence, capable of integrating textual and visual data for a unified understanding of complex scenes. While models such as Florence2, built on transformer architectures, have shown promise across general tasks, their performance in object detection within unstructured or cluttered environments remains underexplored. In this study, we fi-ne-tuned the Florence2 model for object detection tasks in non-constructed, complex environments. A comprehensive experimental framework was established involving multiple hardware configurations (NVIDIA T4, L4, and A100 GPUs), optimizers (AdamW, SGD), and varied hyperparameters including learning rates and LoRA (Low-Rank Adaptation) setups. Model training and evaluation were conducted on challenging datasets representative of real-world, disordered settings. The optimized Florence2 models exhibited significant improvements in object detection accuracy, with Mean Average Precision (mAP) metrics approaching or matching those of estab-lished models such as YOLOv8, YOLOv9, and YOLOv10. The integration of LoRA and careful fine-tuning of transformer layers contributed notably to these gains. Our find-ings highlight the adaptability of transformer-based VLMs like Florence2 for do-main-specific tasks, particularly in visually complex environments. The study under-scores the potential of fine-tuned VLMs to rival traditional convolution-based detec-tors, offering a flexible and scalable approach for advanced vision applications in re-al-world, unstructured settings.
- Abstract(参考訳): VLM(Vision-Language Models)は、複雑なシーンを統一的に理解するためにテキストと視覚データを統合できる人工的インテリジェンスにおいて強力なツールとして登場した。
トランスフォーマーアーキテクチャ上に構築されたFlorence2のようなモデルは、一般的なタスクにまたがる可能性を示してきたが、構造化されていない環境や散在した環境におけるオブジェクト検出のパフォーマンスは、まだ未調査のままである。
本研究では,構成されていない複雑な環境下での物体検出タスクに対するFlorence2モデルについて検討した。
複数のハードウェア構成(NVIDIA T4、L4、A100 GPU)、オプティマイザ(AdamW、SGD)、学習率やLoRA(Low-Rank Adaptation)の設定を含む様々なハイパーパラメータを含む包括的な実験フレームワークが確立された。
実世界の無秩序な環境を表す挑戦的データセットを用いて,モデルトレーニングと評価を行った。
最適化されたFlorence2モデルでは、オブジェクト検出精度が大幅に向上し、平均精度(mAP)メトリクスがYOLOv8、YOLOv9、YOLOv10といったエスタブリッシュモデルのモデルに近づいたり、マッチさせたりした。
LoRAの統合とトランスフォーマー層の微調整は、これらの利益に特に寄与した。
我々の発見は、特に視覚的に複雑な環境において、do-main-specificタスクに対するFlorence2のようなトランスフォーマーベースのVLMの適応性を強調します。
この研究は、従来の畳み込みベースのdetec-torに匹敵する微調整のVLMの可能性を強調し、再配置された非構造化環境で高度な視覚アプリケーションに柔軟でスケーラブルなアプローチを提供する。
関連論文リスト
- Efficient Feature Fusion for UAV Object Detection [9.632727117779178]
特に小さな物体は画像のごく一部を占めており、正確な検出を困難にしている。
既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することでこれらの課題に対処する。
本稿では,UAVオブジェクト検出タスクに特化して設計された新しい機能融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-29T20:39:16Z) - Synthetic Vision: Training Vision-Language Models to Understand Physics [9.474337395173388]
シミュレーションデータを用いて視覚言語モデルの物理的推論能力を向上する2つの手法を提案する。
まず,物理推論タスクに関連するシミュレーションから生成した質問応答ペアを用いて,事前学習したVLMを微調整する。
第2に、物理特性とプロセスに富んだシーン記述を作成するために、物理コンテキストビルダー(PCB)を導入する。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z) - YOLOv11: An Overview of the Key Architectural Enhancements [0.5639904484784127]
本稿では、オブジェクト検出、インスタンスセグメンテーション、ポーズ推定、オブジェクト指向オブジェクト検出(OBB)など、さまざまなコンピュータビジョンタスクにまたがるYOLOv11の拡張機能について検討する。
本稿では,パラメータ数と精度のトレードオフに着目し,平均精度(mAP)と計算効率の両面からモデルの性能改善を概観する。
我々の研究は、オブジェクト検出の広い視野におけるYOLOv11の位置と、リアルタイムコンピュータビジョンアプリケーションに対する潜在的な影響についての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-23T09:55:22Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations [1.5723316845301678]
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。
機械学習モデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。
実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
論文 参考訳(メタデータ) (2024-08-30T14:15:48Z) - What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。
Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。
トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文 参考訳(メタデータ) (2024-05-03T17:00:00Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Florence-2: Advancing a Unified Representation for a Variety of Vision
Tasks [94.49801814314435]
本稿では,様々なコンピュータビジョンと視覚言語タスクを対象とした,統一的,即時的な表現を備えた新しい視覚基盤モデルであるFlorence-2を紹介する。
われわれはFLD-5Bを共同開発し、1億2600万枚の画像に540億個の包括的な視覚アノテーションを付加した。
我々は,フローレンス2を訓練し,汎用的で総合的な視覚タスクを実行するためにシーケンス・ツー・シーケンス構造を採用した。
論文 参考訳(メタデータ) (2023-11-10T18:59:08Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。