Fugu-MT 論文翻訳(概要): Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

論文の概要: Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

arxiv url: http://arxiv.org/abs/2311.06242v1
Date: Fri, 10 Nov 2023 18:59:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-13 14:18:21.843751
Title: Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
Title（参考訳）: florence-2: 多様な視覚タスクのための統一表現の進歩
Authors: Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, Lu Yuan
Abstract要約: 本稿では,様々なコンピュータビジョンと視覚言語タスクを対象とした,統一的,即時的な表現を備えた新しい視覚基盤モデルであるFlorence-2を紹介する。われわれはFLD-5Bを共同開発し、1億2600万枚の画像に540億個の包括的な視覚アノテーションを付加した。我々は,フローレンス2を訓練し,汎用的で総合的な視覚タスクを実行するためにシーケンス・ツー・シーケンス構造を採用した。
参考スコア（独自算出の注目度）: 94.49801814314435
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Florence-2, a novel vision foundation model with a unified, prompt-based representation for a variety of computer vision and vision-language tasks. While existing large vision models excel in transfer learning, they struggle to perform a diversity of tasks with simple instructions, a capability that implies handling the complexity of various spatial hierarchy and semantic granularity. Florence-2 was designed to take text-prompt as task instructions and generate desirable results in text forms, whether it be captioning, object detection, grounding or segmentation. This multi-task learning setup demands large-scale, high-quality annotated data. To this end, we co-developed FLD-5B that consists of 5.4 billion comprehensive visual annotations on 126 million images, using an iterative strategy of automated image annotation and model refinement. We adopted a sequence-to-sequence structure to train Florence-2 to perform versatile and comprehensive vision tasks. Extensive evaluations on numerous tasks demonstrated Florence-2 to be a strong vision foundation model contender with unprecedented zero-shot and fine-tuning capabilities.
Abstract（参考訳）: 様々なコンピュータビジョンと視覚言語タスクの統一されたプロンプトベース表現を備えた,新たなビジョン基盤モデルであるflorence-2を紹介する。既存の大きな視覚モデルは伝達学習に優れているが、様々な空間的階層と意味的な粒度の複雑さを扱う能力である単純な命令でタスクの多様性を実行するのに苦労している。 Florence-2はテキストプロンプトをタスク命令とし、キャプション、オブジェクト検出、グラウンド、セグメンテーションなどのテキスト形式で望ましい結果を生成するように設計された。このマルチタスク学習セットアップは、大規模で高品質なアノテートデータを必要とする。この目的のために、自動画像アノテーションとモデル改良の反復戦略を用いて、1億2600万画像に対する包括的視覚アノテーションからなるFLD-5Bを開発した。フローレンス2の訓練にシーケンシャル・ツー・シーケンス構造を採用し,汎用的かつ総合的な視覚タスクを遂行した。多数のタスクに対する広範囲な評価により、Florence-2は前例のないゼロショットと微調整能力を持つ強力なビジョン基盤モデル候補となった。

関連論文リスト

Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains [31.828341309787042]
視覚言語モデル(VLM)は、単一画像タスクにおいて顕著な成功を収める。現実のシナリオでは複雑なマルチイメージの入力が伴うことが多く、パフォーマンスが著しく低下する。マルチイメージシナリオにおけるVLMの知覚、理解、推論能力を高める新しいパラダイムであるFocus-Centric Visual Chainを提案する。
論文参考訳（メタデータ） (2025-04-28T19:02:18Z)
Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models [127.38740043393527]
LVLMのための視覚的命令なし微調整フレームワークであるViFTを提案する。我々は、タスク解決能力と視覚知覚能力を個別に学習するために、トレーニング中にテキストのみの指示と画像キャプションデータのみを必要とする。実験結果から,VFTはいくつかの視覚的推論と,それに続く視覚的指示に対して,最先端の性能を達成できることが示された。
論文参考訳（メタデータ） (2025-02-17T04:38:12Z)
Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion [83.62294567506076]
本稿では,Floence-2で生成したリッチな視覚表現を備えたマルチモーダル大規模言語モデル(MLLM)のファミリーであるFloence-VLを紹介する。本研究では,フローレンス2の視覚的特徴を予め訓練されたLLMに効果的に統合する,新しい特徴融合アーキテクチャと革新的な学習レシピを提案する。 Florence-VLは、様々なマルチモーダルおよびビジョン中心のベンチマークにおいて、最先端のMLLMよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-12-05T18:50:39Z)
Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning [53.93074108238167]
現在までに最も多種多様なビジュアル・インストラクション・チューニング・データセットであるVision-Flanを構築している。本稿では、VLMをVision-Flan上で微調整し、さらにGPT-4合成データに基づいて調整する2段階の命令チューニングフレームワークを提案する。この2段階のチューニングフレームワークは、従来の1段階の視覚的チューニングフレームワークよりも大幅に優れています。
論文参考訳（メタデータ） (2024-02-18T19:38:44Z)
MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文参考訳（メタデータ） (2023-10-14T03:22:07Z)
InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。 InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文参考訳（メタデータ） (2023-09-30T14:26:43Z)
MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.879418596312554]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。 MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文参考訳（メタデータ） (2023-06-08T17:59:56Z)
DiMBERT: Learning Vision-Language Grounded Representations with Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。 DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文参考訳（メタデータ） (2022-10-28T23:00:40Z)
Florence: A New Foundation Model for Computer Vision [97.26333007250142]
我々は、粗い(シーン)から細かい(オブジェクト)への表現を拡大するために、新しいコンピュータビジョン基盤モデルであるFlorenceを導入する。 Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フローレンスモデルは様々なコンピュータビジョンタスクに容易に適応できる。 Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
論文参考訳（メタデータ） (2021-11-22T18:59:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。