論文の概要: Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring
- arxiv url: http://arxiv.org/abs/2403.09333v1
- Date: Thu, 14 Mar 2024 12:21:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 20:37:19.049577
- Title: Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring
- Title(参考訳): Griffon v2:高分解能スケーリングとビジュアルランゲージ共参照によるマルチモーダル知覚の促進
- Authors: Yufei Zhan, Yousong Zhu, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang,
- Abstract要約: 我々は、視覚的およびテキスト的プロンプトによるフレキシブルなオブジェクト参照を可能にする、統合された高分解能一般化モデル、Griffon v2を導入する。
我々は,大規模言語モデルにおける入力トークン制約を克服するために,シンプルで軽量なダウンサンプリングプロジェクタを設計する。
実験により、Griffon v2は、視覚的およびテキスト的参照で関心のあるオブジェクトをローカライズし、REC、フレーズグラウンド、REGタスクにおける最先端のパフォーマンスを実現し、オブジェクト検出とオブジェクトカウントのエキスパートモデルより優れていることが示された。
- 参考スコア(独自算出の注目度): 27.45225442048711
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Vision Language Models have achieved fine-grained object perception, but the limitation of image resolution remains a significant obstacle to surpass the performance of task-specific experts in complex and dense scenarios. Such limitation further restricts the model's potential to achieve nuanced visual and language referring in domains such as GUI Agents, Counting and \etc. To address this issue, we introduce a unified high-resolution generalist model, Griffon v2, enabling flexible object referring with visual and textual prompts. To efficiently scaling up image resolution, we design a simple and lightweight down-sampling projector to overcome the input tokens constraint in Large Language Models. This design inherently preserves the complete contexts and fine details, and significantly improves multimodal perception ability especially for small objects. Building upon this, we further equip the model with visual-language co-referring capabilities through a plug-and-play visual tokenizer. It enables user-friendly interaction with flexible target images, free-form texts and even coordinates. Experiments demonstrate that Griffon v2 can localize any objects of interest with visual and textual referring, achieve state-of-the-art performance on REC, phrase grounding, and REG tasks, and outperform expert models in object detection and object counting. Data, codes and models will be released at https://github.com/jefferyZhan/Griffon.
- Abstract(参考訳): 大規模視覚言語モデルは、微粒な物体知覚を達成しているが、画像解像度の制限は、複雑で密集したシナリオにおけるタスク固有の専門家のパフォーマンスを超える大きな障害である。
このような制限は、GUI Agents、Counting、および \etcといったドメインで参照されるニュアンスな視覚的および言語を達成するためのモデルの可能性をさらに制限する。
この問題に対処するために、視覚的およびテキスト的プロンプトによるフレキシブルなオブジェクト参照を可能にする、統合された高分解能汎用モデルGriffon v2を導入する。
画像解像度を効率的にスケールアップするために,大規模言語モデルにおける入力トークン制約を克服する,シンプルで軽量なダウンサンプリングプロジェクタを設計する。
この設計は、本質的に完全なコンテキストと細部を保存し、特に小さなオブジェクトに対するマルチモーダル認識能力を大幅に改善する。
これに基づいて、プラグ・アンド・プレイのビジュアル・トークンーザを用いて、ビジュアル・ランゲージ・コレファレンス機能を備えたモデルを構築する。
フレキシブルなターゲットイメージ、自由形式のテキスト、さらにはコーディネートとのユーザフレンドリーなインタラクションを可能にする。
実験により、Griffon v2は、視覚的およびテキスト的参照で関心のあるオブジェクトをローカライズし、REC、フレーズグラウンド、REGタスクにおける最先端のパフォーマンスを実現し、オブジェクト検出とオブジェクトカウントのエキスパートモデルより優れていることが示された。
データ、コード、モデルはhttps://github.com/jefferyZhan/Griffon.comでリリースされる。
関連論文リスト
- Aquila: A Hierarchically Aligned Visual-Language Model for Enhanced Remote Sensing Image Comprehension [6.29665399879184]
本稿では、リモートセンシング画像のための高度な視覚言語基盤モデルであるAquilaを紹介する。
Aquilaはよりリッチな視覚的特徴表現とより正確な視覚的特徴アライメントを可能にする。
定量的実験と定性解析により,Aquilaの有効性を検証した。
論文 参考訳(メタデータ) (2024-11-09T05:31:56Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。
これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。
実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T21:36:31Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual Prompts [38.59120110371588]
任意の視覚的プロンプトをデコードできる新しいマルチモーダルモデルを提案する。
これにより、ユーザは直感的にイメージをマークし、"赤いバウンディングボックス"や"ポイントアロー"のような自然なキューを使ってモデルと対話できる。
我々の単純な設計では、ビジュアルマーカーをRGBイメージに直接オーバーレイし、複雑な領域エンコーディングを不要にしています。
論文 参考訳(メタデータ) (2023-12-01T18:59:56Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - DesCo: Learning Object Recognition with Rich Language Descriptions [93.8177229428617]
視覚言語アプローチの最近の発展は、言語指導から視覚認識モデルを学習するパラダイムシフトを引き起こしている。
本稿では,リッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-24T21:05:02Z) - PaLI-X: On Scaling up a Multilingual Vision and Language Model [166.9837904115951]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。
我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。
複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文 参考訳(メタデータ) (2023-05-29T18:58:38Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。