論文の概要: Fine-Tuning Florence2 for Enhanced Object Detection in Un-constructed Environments: Vision-Language Model Approach
- arxiv url: http://arxiv.org/abs/2503.04918v1
- Date: Thu, 06 Mar 2025 19:31:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 15:56:52.735684
- Title: Fine-Tuning Florence2 for Enhanced Object Detection in Un-constructed Environments: Vision-Language Model Approach
- Title(参考訳): 未構築環境における物体検出のための微調整フィレンツェ2:視覚・言語モデルによるアプローチ
- Authors: Soumyadeep Ro, Sanapala Satwika, Pamarthi Yasoda Gayathri, Mohmmad Ghaith Balsha, Aysegul Ucar,
- Abstract要約: VLM(Vision-Language Models)は、テキストと視覚入力を統合し、包括的な理解と相互作用を実現する。
本研究の目的は,フィレンツェ2モデルを微調整することで,挑戦的な環境下での効率を向上させることである。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Artificial intelligence has progressed through the development of Vision-Language Models (VLMs), which integrate text and visual inputs to achieve comprehensive understanding and interaction in various contexts. Enhancing the performance of these models such as the transformer based Florence 2 on specialized tasks like object detection in complex and unstructured environments requires fine-tuning. The goal of this paper is to improve the efficiency of the Florence 2 model in challenging environments by finetuning it. We accomplished this by experimenting with different configurations, using various GPU types (T4, L4, A100) and optimizers such as AdamW and SGD. We also employed a range of learning rates and LoRA (Low Rank Adaptation) settings. Analyzing the performance metrics, such as Mean Average Precision (mAP) scores,reveals that the finetuned Florence 2 models performed comparably to YOLO models, including YOLOv8, YOLOv9, and YOLOv10. This demonstrates how transformer based VLMs can be adapted for detailed object detection tasks. The paper emphasizes the capability of optimized transformer based VLMs to address specific challenges in object detection within unstructured environments, opening up promising avenues for practical applications in demanding and complex settings.
- Abstract(参考訳): 人工知能は、様々な文脈における包括的な理解と相互作用を達成するためにテキストと視覚入力を統合するビジョン・ランゲージ・モデル(VLM)の開発によって進歩してきた。
複雑な環境や非構造化環境でのオブジェクト検出のような特殊なタスクにおいて、トランスフォーマーベースのFlorence 2のようなモデルの性能を高めるには、微調整が必要である。
本研究の目的は,フィレンツェ2モデルを微調整することで,挑戦的な環境下での効率を向上させることである。
我々は、さまざまなGPUタイプ(T4、L4、A100)とAdamWやSGDといったオプティマイザを使用して、異なる構成で実験を行い、これを達成した。
また、学習率やローランク適応の設定も採用しました。
Mean Average Precision(mAP)スコアなどのパフォーマンス指標を分析し、微調整されたFlorence 2モデルが、YOLOv8、YOLOv9、YOLOv10といったYOLOモデルと互換性のあるパフォーマンスを示した。
このことは、トランスフォーマーベースのVLMが、詳細なオブジェクト検出タスクにどのように適応できるかを示す。
本稿では,非構造化環境におけるオブジェクト検出における特定の課題に対処するために,トランスフォーマーをベースとしたVLMを最適化する能力を強調し,要求と複雑な設定の実践的応用に期待できる道を開く。
関連論文リスト
- Efficient Feature Fusion for UAV Object Detection [9.632727117779178]
特に小さな物体は画像のごく一部を占めており、正確な検出を困難にしている。
既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することでこれらの課題に対処する。
本稿では,UAVオブジェクト検出タスクに特化して設計された新しい機能融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-29T20:39:16Z) - Synthetic Vision: Training Vision-Language Models to Understand Physics [9.474337395173388]
シミュレーションデータを用いて視覚言語モデルの物理的推論能力を向上する2つの手法を提案する。
まず,物理推論タスクに関連するシミュレーションから生成した質問応答ペアを用いて,事前学習したVLMを微調整する。
第2に、物理特性とプロセスに富んだシーン記述を作成するために、物理コンテキストビルダー(PCB)を導入する。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z) - YOLOv11: An Overview of the Key Architectural Enhancements [0.5639904484784127]
本稿では、オブジェクト検出、インスタンスセグメンテーション、ポーズ推定、オブジェクト指向オブジェクト検出(OBB)など、さまざまなコンピュータビジョンタスクにまたがるYOLOv11の拡張機能について検討する。
本稿では,パラメータ数と精度のトレードオフに着目し,平均精度(mAP)と計算効率の両面からモデルの性能改善を概観する。
我々の研究は、オブジェクト検出の広い視野におけるYOLOv11の位置と、リアルタイムコンピュータビジョンアプリケーションに対する潜在的な影響についての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-23T09:55:22Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations [1.5723316845301678]
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。
機械学習モデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。
実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
論文 参考訳(メタデータ) (2024-08-30T14:15:48Z) - What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。
Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。
トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文 参考訳(メタデータ) (2024-05-03T17:00:00Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Florence-2: Advancing a Unified Representation for a Variety of Vision
Tasks [94.49801814314435]
本稿では,様々なコンピュータビジョンと視覚言語タスクを対象とした,統一的,即時的な表現を備えた新しい視覚基盤モデルであるFlorence-2を紹介する。
われわれはFLD-5Bを共同開発し、1億2600万枚の画像に540億個の包括的な視覚アノテーションを付加した。
我々は,フローレンス2を訓練し,汎用的で総合的な視覚タスクを実行するためにシーケンス・ツー・シーケンス構造を採用した。
論文 参考訳(メタデータ) (2023-11-10T18:59:08Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。