論文の概要: Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models
- arxiv url: http://arxiv.org/abs/2311.14552v3
- Date: Tue, 08 Oct 2024 03:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:29:42.613502
- Title: Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models
- Title(参考訳): Griffon: 大規模言語モデルによる任意の粒度でのすべてのオブジェクト位置の排除
- Authors: Yufei Zhan, Yousong Zhu, Zhiyang Chen, Fan Yang, Ming Tang, Jinqiao Wang,
- Abstract要約: Griffonは、大規模な視覚言語モデルのための言語プロンプトローカライゼーションデータセットである。
十分に設計されたパイプラインを通じて、エンドツーエンドでトレーニングされる。
精細なRefCOCOシリーズとFlickr30K Entitiesで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 30.20915403608803
- License:
- Abstract: Replicating the innate human ability to detect all objects based on free-form texts at any granularity remains a formidable challenge for Large Vision Language Models (LVLMs). Current LVLMs are predominantly constrained to locate a single, pre-existing object. This limitation leads to a compromise in model design, necessitating the introduction of visual expert models or customized head structures. Beyond these constraints, our research uncovers LVLMs' capability for basic object perception, allowing them to accurately identify and locate objects of interest. Building on this insight, we introduce a novel Language-prompted Localization Dataset to fully unleash the capabilities of LVLMs in fine-grained object perception and precise location awareness. More importantly, we present Griffon, a purely LVLM-based baseline, which does not introduce any special tokens, expert models, or additional detection modules. It simply maintains a consistent structure with popular LVLMs by unifying data formats across various localization-related scenarios and is trained end-to-end through a well-designed pipeline. Comprehensive experiments demonstrate that Griffon not only achieves state-of-the-art performance on the fine-grained RefCOCO series and Flickr30K Entities but also approaches the capabilities of the expert model Faster RCNN on the detection benchmark MSCOCO. Data, codes, and models are released at https://github.com/jefferyZhan/Griffon.
- Abstract(参考訳): 任意の粒度で自由形式のテキストに基づいて全てのオブジェクトを検出する能力の再現は、LVLM(Large Vision Language Models)にとって非常に難しい課題である。
現在のLVLMは、主に1つの既存のオブジェクトを見つけるために制約されている。
この制限は、ビジュアルエキスパートモデルやカスタマイズされたヘッド構造の導入を必要とするモデル設計の妥協につながります。
これらの制約を超えて、我々の研究はLVLMの基本的な物体知覚能力を明らかにし、興味のある物体を正確に識別し、発見することを可能にする。
この知見に基づいて,LVLMの微粒な物体認識と正確な位置認識能力を完全に解き放つ新しい言語プロンプト型局所化データセットを提案する。
さらに重要なことは、純粋にLVLMベースのベースラインであるGriffonを紹介し、特別なトークンやエキスパートモデル、追加の検出モジュールは導入しない。
ローカライゼーションに関連するさまざまなシナリオでデータフォーマットを統合することで、一般的なLVLMと一貫した構造を維持し、よく設計されたパイプラインを通じてエンドツーエンドにトレーニングされる。
総合的な実験により、グリフォンは精細なRefCOCOシリーズとFlickr30K Entitiesで最先端のパフォーマンスを達成するだけでなく、検出ベンチマークのMSCOCO上でのFaster RCNNの能力にもアプローチしている。
データ、コード、モデルはhttps://github.com/jefferyZhan/Griffon.comで公開されている。
関連論文リスト
- DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。
我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。
これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文 参考訳(メタデータ) (2024-09-23T06:56:51Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding [26.888343140449948]
ビジュアルグラウンドティングは、ユーザが提供するテキストクエリと、画像内のクエリ固有の領域を結びつける重要なツールである。
LLM-Opticは,Large Language Models (LLMs) を光学レンズとして利用し,既存の視覚的接地モデルを強化する革新的な手法である。
提案手法は,任意の言語入力によって指定された任意のオブジェクトを検出可能な,普遍的な視覚的接地を実現する。
論文 参考訳(メタデータ) (2024-05-27T12:23:08Z) - Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring [27.45225442048711]
我々は、視覚的およびテキスト的プロンプトによるフレキシブルなオブジェクト参照を可能にする、統合された高分解能一般化モデル、Griffon v2を導入する。
我々は,大規模言語モデルにおける入力トークン制約を克服するために,シンプルで軽量なダウンサンプリングプロジェクタを設計する。
実験により、Griffon v2は、視覚的およびテキスト的参照で関心のあるオブジェクトをローカライズし、REC、フレーズグラウンド、REGタスクにおける最先端のパフォーマンスを実現し、オブジェクト検出とオブジェクトカウントのエキスパートモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-03-14T12:21:37Z) - PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。
これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文 参考訳(メタデータ) (2024-02-13T18:39:18Z) - General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。