論文の概要: Ferret: Refer and Ground Anything Anywhere at Any Granularity
- arxiv url: http://arxiv.org/abs/2310.07704v1
- Date: Wed, 11 Oct 2023 17:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 21:16:35.753824
- Title: Ferret: Refer and Ground Anything Anywhere at Any Granularity
- Title(参考訳): Ferret:どんな粒度でも、どんな場所でも見れます
- Authors: Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui
Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang
- Abstract要約: 画像内の任意の形状や粒度の空間参照を理解することができる新しいマルチモーダル大言語モデル(MLLM)であるFeretを紹介する。
フェレットは、画像内の領域を表現するために、離散座標と連続的な特徴を結合した、新しく強力なハイブリッドな領域表現を採用している。
フェレットは、ポイント、バウンディングボックス、自由形式の形状など、多様な領域入力を受け入れることができる。
- 参考スコア(独自算出の注目度): 93.80461625100826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Ferret, a new Multimodal Large Language Model (MLLM) capable of
understanding spatial referring of any shape or granularity within an image and
accurately grounding open-vocabulary descriptions. To unify referring and
grounding in the LLM paradigm, Ferret employs a novel and powerful hybrid
region representation that integrates discrete coordinates and continuous
features jointly to represent a region in the image. To extract the continuous
features of versatile regions, we propose a spatial-aware visual sampler, adept
at handling varying sparsity across different shapes. Consequently, Ferret can
accept diverse region inputs, such as points, bounding boxes, and free-form
shapes. To bolster the desired capability of Ferret, we curate GRIT, a
comprehensive refer-and-ground instruction tuning dataset including 1.1M
samples that contain rich hierarchical spatial knowledge, with 95K hard
negative data to promote model robustness. The resulting model not only
achieves superior performance in classical referring and grounding tasks, but
also greatly outperforms existing MLLMs in region-based and
localization-demanded multimodal chatting. Our evaluations also reveal a
significantly improved capability of describing image details and a remarkable
alleviation in object hallucination. Code and data will be available at
https://github.com/apple/ml-ferret
- Abstract(参考訳): 画像内の任意の形状や粒度の空間的参照を理解でき、オープン語彙記述を正確にグラウンド化できる新しいマルチモーダル大言語モデル(MLLM)であるFeretを紹介する。
llmパラダイムにおける参照と接地を統一するために、フェレットは画像内の領域を表現するために、離散座標と連続的な特徴を統合する新しい強力なハイブリッド領域表現を用いる。
そこで本研究では,多目的領域の連続的な特徴を抽出するために,異なる形状の空間認識型ビジュアルサンプリング器を提案する。
その結果、フェレットはポイント、バウンディングボックス、フリーフォーム形状などの様々な領域入力を受け付けることができる。
モデルロバスト性を促進するために,階層的な空間的知識を豊富に含む1.1Mサンプルを含む包括的参照・地上調整データセットであるGRITを95Kのハード・ネガティブ・データでキュレートする。
その結果得られたモデルは、古典的な参照および接地タスクにおいて優れたパフォーマンスを達成するだけでなく、地域ベースおよびローカライゼーション要求のマルチモーダルチャットにおいて、既存のmllmを大きく上回っている。
また,画像の詳細な記述能力が向上し,幻覚の顕著な緩和効果が示された。
コードとデータはhttps://github.com/apple/ml-ferretで入手できる。
関連論文リスト
- Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models [62.36769498166312]
本稿では,マルチモーダル大規模言語モデル(MLLM)であるGromaを紹介する。
グロマは地域キャプションや視覚的接地といった地域レベルのタスクに適している。
ユーザ命令とモデル応答にリージョントークンを統合することで、Gromaがユーザ指定のリージョン入力をシームレスに理解できるようにする。
論文 参考訳(メタデータ) (2024-04-19T17:22:51Z) - Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models [119.63480600733715]
Ferret-v2は、Feretの大幅なアップグレードで、3つの重要なデザインがある。
フレキシブルなアプローチは、より高い画像解像度を努力的に処理し、より詳細に画像を処理および理解するモデルの能力を改善する。
追加のDINOv2エンコーダを統合することで、グローバルおよびきめ細かい視覚情報に対して、より良く多様な基盤となるコンテキストを学習する。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - GROUNDHOG: Grounding Large Language Models to Holistic Segmentation [22.347590874621865]
本稿では,Large Language ModelsをベースとしたMLLMであるGROUNDHOGを紹介する。
GROUNDHOGはマスク付き特徴抽出器を内蔵し、抽出した特徴をMLLMバックボーンの視覚的実体トークンに変換する。
実験結果から,GROUNDHOGはタスク固有の微調整を伴わずに,様々な言語基盤タスクにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-02-26T18:59:33Z) - MuRF: Multi-Baseline Radiance Fields [117.55811938988256]
スパースビュー合成におけるフィードフォワードアプローチであるmulti-Baseline Radiance Fields(MuRF)を提案する。
MuRFは、複数の異なるベースライン設定で最先端のパフォーマンスを達成する。
また、Mip-NeRF 360データセット上でゼロショットの一般化能力を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:56Z) - Portrait Neural Radiance Fields from a Single Image [68.66958204066721]
本稿では,単一のポートレートからニューラルラジアンス場(NeRF)を推定する手法を提案する。
体積密度を暗黙的にモデル化する多層パーセプトロン(MLP)の重みを事前に訓練することを提案する。
非知覚面の一般化を改善するため、3次元顔変形モデルによって近似される正準座標空間を訓練する。
本手法は,制御されたキャプチャを用いて定量的に評価し,実画像への一般化を実証し,最先端画像に対して良好な結果を示す。
論文 参考訳(メタデータ) (2020-12-10T18:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。