論文の概要: Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution
- arxiv url: http://arxiv.org/abs/2409.12961v2
- Date: Tue, 22 Oct 2024 16:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 12:36:59.768696
- Title: Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution
- Title(参考訳): Oryx MLLM:任意分解能におけるオン・デマンド空間時間理解
- Authors: Zuyan Liu, Yuhao Dong, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao,
- Abstract要約: 画像,ビデオ,3Dシーンの空間的時間的理解のための統合マルチモーダルアーキテクチャであるOryxを提案する。
Oryxは任意の空間サイズと時間長の視覚入力をシームレスかつ効率的に処理するオンデマンドソリューションを提供する。
デザイン機能により、Oryxは低解像度で高圧縮でビデオのような非常に長い視覚的コンテキストに対応できる。
- 参考スコア(独自算出の注目度): 90.31313348540607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual data comes in various forms, ranging from small icons of just a few pixels to long videos spanning hours. Existing multi-modal LLMs usually standardize these diverse visual inputs to a fixed resolution for visual encoders and yield similar numbers of tokens for LLMs. This approach is non-optimal for multimodal understanding and inefficient for processing inputs with long and short visual contents. To solve the problem, we propose Oryx, a unified multimodal architecture for the spatial-temporal understanding of images, videos, and multi-view 3D scenes. Oryx offers an on-demand solution to seamlessly and efficiently process visual inputs with arbitrary spatial sizes and temporal lengths through two core innovations: 1) a pre-trained OryxViT model that can encode images at any resolution into LLM-friendly visual representations; 2) a dynamic compressor module that supports 1x to 16x compression on visual tokens by request. These design features enable Oryx to accommodate extremely long visual contexts, such as videos, with lower resolution and high compression while maintaining high recognition precision for tasks like document understanding with native resolution and no compression. Beyond the architectural improvements, enhanced data curation and specialized training on long-context retrieval and spatial-aware data help Oryx achieve strong capabilities in image, video, and 3D multimodal understanding simultaneously. Our work is open-sourced at https://github.com/Oryx-mllm/Oryx.
- Abstract(参考訳): ビジュアルデータには、わずか数ピクセルの小さなアイコンから数時間にわたる長いビデオまで、さまざまな形態がある。
既存のマルチモーダル LLM は、通常、これらの多様な視覚入力を、視覚エンコーダの固定解像度に標準化し、LLM に類似した数のトークンを生成する。
このアプローチはマルチモーダル理解には最適ではなく、長い視覚的内容と短い視覚的内容の入力を処理するのに非効率である。
この問題を解決するために,画像,ビデオ,多視点3Dシーンの空間的時間的理解のための統合型マルチモーダルアーキテクチャであるOryxを提案する。
Oryxは、任意の空間サイズと時間長を持つ視覚入力をシームレスかつ効率的に処理するオンデマンドソリューションを提供する。
1) LLMフレンドリーな視覚表現に任意の解像度で画像をエンコードできる訓練済みのOryxViTモデル
2) 要求に応じて視覚トークンの1倍から16倍の圧縮をサポートする動的圧縮モジュール。
これらのデザイン機能により、Oryxは低解像度と高圧縮でビデオのような非常に長い視覚的コンテキストに対応でき、ネイティブの解像度で文書を理解でき、圧縮しないようなタスクの認識精度は維持できる。
アーキテクチャの改善に加えて、拡張されたデータキュレーションと長期コンテキスト検索と空間認識データに関する特別なトレーニングにより、Oryxは画像、ビデオ、および3Dマルチモーダル理解において、同時に強力な能力を達成することができる。
私たちの仕事はhttps://github.com/Oryx-mllm/Oryx.comで公開されています。
関連論文リスト
- VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。