論文の概要: OtterHD: A High-Resolution Multi-modality Model
- arxiv url: http://arxiv.org/abs/2311.04219v1
- Date: Tue, 7 Nov 2023 18:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 14:22:59.296476
- Title: OtterHD: A High-Resolution Multi-modality Model
- Title(参考訳): OtterHD: 高分解能マルチモダリティモデル
- Authors: Bo Li, Peiyuan Zhang, Jingkang Yang, Yuanhan Zhang, Fanyi Pu, Ziwei
Liu
- Abstract要約: OtterHD-8Bは、高解像度の視覚入力を粒度精度で解釈するために設計された革新的なマルチモーダルモデルである。
本研究は,大規模マルチモーダルモデルにおける柔軟性と高分解能入力能力の重要な役割を明らかにする。
- 参考スコア(独自算出の注目度): 57.16481886807386
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present OtterHD-8B, an innovative multimodal model evolved
from Fuyu-8B, specifically engineered to interpret high-resolution visual
inputs with granular precision. Unlike conventional models that are constrained
by fixed-size vision encoders, OtterHD-8B boasts the ability to handle flexible
input dimensions, ensuring its versatility across various inference
requirements. Alongside this model, we introduce MagnifierBench, an evaluation
framework designed to scrutinize models' ability to discern minute details and
spatial relationships of small objects. Our comparative analysis reveals that
while current leading models falter on this benchmark, OtterHD-8B, particularly
when directly processing high-resolution inputs, outperforms its counterparts
by a substantial margin. The findings illuminate the structural variances in
visual information processing among different models and the influence that the
vision encoders' pre-training resolution disparities have on model
effectiveness within such benchmarks. Our study highlights the critical role of
flexibility and high-resolution input capabilities in large multimodal models
and also exemplifies the potential inherent in the Fuyu architecture's
simplicity for handling complex visual data.
- Abstract(参考訳): 本稿では,fuyu-8bから進化した革新的なマルチモーダルモデルであるotterhd-8bについて述べる。
固定サイズのビジョンエンコーダによって制約される従来のモデルとは異なり、OtterHD-8Bはフレキシブルな入力次元を扱う能力を持ち、様々な推論要求に対してその汎用性を保証する。
このモデルとともに、小物体の細部の詳細や空間的関係を識別するモデルの能力を調べるための評価フレームワークMagnifierBenchを紹介する。
比較分析の結果、現在の先行モデルではこのベンチマークでは、otterhd-8bは特に高精細な入力を直接処理する場合には、相当のマージンでそのモデルを上回ることがわかった。
この結果は、異なるモデル間の視覚情報処理における構造的ばらつきと、視覚エンコーダの事前学習解像度のばらつきが、これらのベンチマークにおけるモデル有効性に与える影響を照らしている。
本研究は,大規模マルチモーダルモデルにおけるフレキシビリティと高分解能入力機能の重要性を強調し,複雑な視覚データを扱う上での冬のアーキテクチャの単純さに固有の可能性を実証する。
関連論文リスト
- Challenging the Performance-Interpretability Trade-off: An Evaluation of Interpretable Machine Learning Models [3.3595341706248876]
一般化加法モデル(GAM)は、完全に解釈可能でありながら、複雑で非線形なパターンをキャプチャするための有望な特性を提供する。
本研究では、20のベンチマークデータセットの収集に基づいて、7つのGAMの予測性能を7つの機械学習モデルと比較した。
論文 参考訳(メタデータ) (2024-09-22T12:58:52Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。
Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。
トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文 参考訳(メタデータ) (2024-05-03T17:00:00Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Visual Analytics for Generative Transformer Models [28.251218916955125]
本稿では,変換器を用いた生成ネットワークの解析を支援するための新しい視覚分析フレームワークを提案する。
我々のフレームワークは、トランスフォーマーベースのエンコーダデコーダモデルの解析をサポートするための最初のフレームワークの1つである。
論文 参考訳(メタデータ) (2023-11-21T08:15:01Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Efficient Scopeformer: Towards Scalable and Rich Feature Extraction for
Intracranial Hemorrhage Detection [0.7734726150561088]
ScopeformerはCT画像における頭蓋内出血分類のための新しいマルチCNN-ViTモデルである。
本稿では,CNN生成特徴間の冗長性を低減し,ViTの入力サイズを制御するための効果的な特徴投影法を提案する。
様々なスコープフォーマーモデルによる実験により、モデルの性能は特徴抽出器で使用される畳み込みブロックの数に比例することが示された。
論文 参考訳(メタデータ) (2023-02-01T03:51:27Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。