論文の概要: UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface
- arxiv url: http://arxiv.org/abs/2503.01342v2
- Date: Tue, 04 Mar 2025 15:36:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:24.875988
- Title: UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface
- Title(参考訳): UFO:オープンエンド言語インタフェースによるきめ細かい視覚知覚への統一的アプローチ
- Authors: Hao Tang, Chenwei Xie, Haiyang Wang, Xiaoyi Bao, Tingyu Weng, Pandeng Li, Yun Zheng, Liwei Wang,
- Abstract要約: textbfOpen-ended言語インターフェースを通じて、textbfFineの粒度の視覚的知覚タスクをTextbfUnifyするフレームワークである。
オブジェクトレベルの検出、ピクセルレベルのセグメンテーション、イメージレベルの視覚言語タスクを単一のモデルに統合する。
私たちのフレームワークは、きめ細かい認識と視覚言語タスクのギャップを埋め、アーキテクチャ設計とトレーニング戦略を大幅に単純化します。
- 参考スコア(独自算出の注目度): 25.898592418636603
- License:
- Abstract: Generalist models have achieved remarkable success in both language and vision-language tasks, showcasing the potential of unified modeling. However, effectively integrating fine-grained perception tasks like detection and segmentation into these models remains a significant challenge. This is primarily because these tasks often rely heavily on task-specific designs and architectures that can complicate the modeling process. To address this challenge, we present \ours, a framework that \textbf{U}nifies \textbf{F}ine-grained visual perception tasks through an \textbf{O}pen-ended language interface. By transforming all perception targets into the language space, \ours unifies object-level detection, pixel-level segmentation, and image-level vision-language tasks into a single model. Additionally, we introduce a novel embedding retrieval approach that relies solely on the language interface to support segmentation tasks. Our framework bridges the gap between fine-grained perception and vision-language tasks, significantly simplifying architectural design and training strategies while achieving comparable or superior performance to methods with intricate task-specific designs. After multi-task training on five standard visual perception datasets, \ours outperforms the previous state-of-the-art generalist models by 12.3 mAP on COCO instance segmentation and 3.3 mIoU on ADE20K semantic segmentation. Furthermore, our method seamlessly integrates with existing MLLMs, effectively combining fine-grained perception capabilities with their advanced language abilities, thereby enabling more challenging tasks such as reasoning segmentation. Code and models are available at https://github.com/nnnth/UFO.
- Abstract(参考訳): ジェネリストモデルは言語と視覚言語の両方のタスクにおいて顕著な成功を収めており、統一モデリングの可能性を示している。
しかし、これらのモデルに検出やセグメンテーションのようなきめ細かい認識タスクを効果的に統合することは、依然として重要な課題である。
これは主に、これらのタスクがモデリングプロセスを複雑にするようなタスク固有の設計とアーキテクチャに大きく依存するためです。
この課題に対処するために、 \textbf{U} が \textbf{F}ine の粒度の視覚的知覚タスクを \textbf{O}pen-ended language interface で指定するフレームワークである \ours を提示する。
すべての認識対象を言語空間に変換することで、Shaoursはオブジェクトレベルの検出、ピクセルレベルのセグメンテーション、イメージレベルの視覚言語タスクを単一のモデルに統合する。
さらに,セグメンテーションタスクをサポートするために,言語インタフェースのみに依存する新しい埋め込み検索手法を提案する。
我々のフレームワークは、きめ細かい知覚と視覚言語タスクのギャップを埋め、アーキテクチャ設計とトレーニング戦略を大幅に単純化し、複雑なタスク固有の設計の手法に匹敵する、あるいは優れたパフォーマンスを実現します。
5つの標準的な視覚知覚データセットをマルチタスクでトレーニングした後、12.3mAPのCOCOインスタンスセグメンテーション、3.3mIoUのADE20Kセグメンテーションでは、従来の最先端のジェネリストモデルを上回っている。
さらに,本手法は既存のMLLMとシームレスに統合し,より詳細な認識能力と高度な言語能力とを効果的に組み合わせることで,セグメンテーションの推論などのより困難なタスクを実現する。
コードとモデルはhttps://github.com/nnnth/UFOで公開されている。
関連論文リスト
- GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - LanGWM: Language Grounded World Model [24.86620763902546]
我々は,世界モデル学習を強化するために,言語による視覚的特徴を学習することに注力する。
提案手法は,人間とロボットの相互作用モデルを改善する可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-29T12:41:55Z) - MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - Seeing What You Miss: Vision-Language Pre-training with Semantic
Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。
本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。
また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文 参考訳(メタデータ) (2022-11-24T06:39:16Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。