論文の概要: Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models
- arxiv url: http://arxiv.org/abs/2404.07973v1
- Date: Thu, 11 Apr 2024 17:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 13:01:15.143266
- Title: Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models
- Title(参考訳): Ferret-v2: 大規模言語モデルによる参照とグラウンド化のための改良されたベースライン
- Authors: Haotian Zhang, Haoxuan You, Philipp Dufter, Bowen Zhang, Chen Chen, Hong-You Chen, Tsu-Jui Fu, William Yang Wang, Shih-Fu Chang, Zhe Gan, Yinfei Yang,
- Abstract要約: Ferret-v2は、Feretの大幅なアップグレードで、3つの重要なデザインがある。
フレキシブルなアプローチは、より高い画像解像度を努力的に処理し、より詳細に画像を処理および理解するモデルの能力を改善する。
追加のDINOv2エンコーダを統合することで、グローバルおよびきめ細かい視覚情報に対して、より良く多様な基盤となるコンテキストを学習する。
- 参考スコア(独自算出の注目度): 119.63480600733715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Ferret seamlessly integrates regional understanding into the Large Language Model (LLM) to facilitate its referring and grounding capability, it poses certain limitations: constrained by the pre-trained fixed visual encoder and failed to perform well on broader tasks. In this work, we unveil Ferret-v2, a significant upgrade to Ferret, with three key designs. (1) Any resolution grounding and referring: A flexible approach that effortlessly handles higher image resolution, improving the model's ability to process and understand images in greater detail. (2) Multi-granularity visual encoding: By integrating the additional DINOv2 encoder, the model learns better and diverse underlying contexts for global and fine-grained visual information. (3) A three-stage training paradigm: Besides image-caption alignment, an additional stage is proposed for high-resolution dense alignment before the final instruction tuning. Experiments show that Ferret-v2 provides substantial improvements over Ferret and other state-of-the-art methods, thanks to its high-resolution scaling and fine-grained visual processing.
- Abstract(参考訳): Ferretは、Large Language Model(LLM)への地域的理解をシームレスに統合して参照とグラウンド機能を促進する一方で、事前訓練された固定ビジュアルエンコーダによって制約され、より広範なタスクでうまく機能しなかった、一定の制限を課している。
本研究では,フェレットの大幅なアップグレードであるFerret-v2を3つの重要な設計で発表する。
1) 解像度の接点と参照: より高解像度の解像度を扱うフレキシブルなアプローチで、より詳細に画像の処理と理解の能力を向上させる。
2)多粒度視覚符号化:追加のDINOv2エンコーダを統合することにより,グローバルかつきめ細かな視覚情報に対して,より優れた,多様な基盤となるコンテキストを学習する。
(3) 3段階の訓練パラダイム: イメージキャプションアライメントに加えて, 最終調整前の高分解能高密度アライメントのための追加段階を提案する。
フェレットv2は、高解像度のスケーリングときめ細かいビジュアル処理により、フェレットや他の最先端の手法よりも大幅に改善されている。
関連論文リスト
- Expressive Gaussian Human Avatars from Monocular RGB Video [69.56388194249942]
EVAは3DガウスとSMPL-Xに基づいて細部を巧みに彫刻する乾燥可能な人間モデルである。
SMPL-XモデルをRGBフレームに整合させることが,効果的なアバター学習において重要であることを強調した。
本稿では,勾配閾値を適応的に調整する適応密度制御戦略を提案する。
論文 参考訳(メタデータ) (2024-07-03T15:36:27Z) - Lifting by Image -- Leveraging Image Cues for Accurate 3D Human Pose
Estimation [10.374944534302234]
2次元ポーズからのリフト」法が3Dヒューマンポーズ推定の主流となっている(3DHPE)
画像中のリッチな意味とテクスチャ情報は、より正確な「リフト」手順に寄与する。
本稿では, 一般化問題の原因と画像特徴の有効性について, 新たな知見を与える。
論文 参考訳(メタデータ) (2023-12-25T07:50:58Z) - DFU: scale-robust diffusion model for zero-shot super-resolution image
generation [15.689418447376587]
複数の解像度で空間情報とスペクトル情報を組み合わせることでスコア演算子を近似する新しいディープラーニングアーキテクチャDual-FNO UNet(DFU)を提案する。
本稿では,FIDをFFHQの最大トレーニング解像度の1.66倍の1.66倍の1.3倍の精度で達成し,ゼロショット超解像画像生成能力をさらに高めるための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-30T23:31:33Z) - Ferret: Refer and Ground Anything Anywhere at Any Granularity [93.80461625100826]
画像内の任意の形状や粒度の空間参照を理解することができる新しいマルチモーダル大言語モデル(MLLM)であるFeretを紹介する。
フェレットは、画像内の領域を表現するために、離散座標と連続的な特徴を結合した、新しく強力なハイブリッドな領域表現を採用している。
フェレットは、ポイント、バウンディングボックス、自由形式の形状など、多様な領域入力を受け入れることができる。
論文 参考訳(メタデータ) (2023-10-11T17:55:15Z) - DiffDreamer: Towards Consistent Unsupervised Single-view Scene
Extrapolation with Conditional Diffusion Models [91.94566873400277]
DiffDreamerは、長いカメラ軌跡を描いた新しいビューを合成できる教師なしのフレームワークである。
画像条件付き拡散モデルでは, 従来のGAN法よりも一貫性を保ちながら, 長距離シーン外挿を効果的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-11-22T10:06:29Z) - Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。
すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文 参考訳(メタデータ) (2022-04-14T17:59:31Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。