論文の概要: GIRAFFE: Design Choices for Extending the Context Length of Visual Language Models
- arxiv url: http://arxiv.org/abs/2412.12735v1
- Date: Tue, 17 Dec 2024 09:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:02:23.759990
- Title: GIRAFFE: Design Choices for Extending the Context Length of Visual Language Models
- Title(参考訳): GIRAFFE:ビジュアル言語モデルのコンテキスト長を拡張する設計選択
- Authors: Mukai Li, Lei Li, Shansan Gong, Qi Liu,
- Abstract要約: 我々は、視覚言語モデルの長期的性能を高める効果的なソリューションを確立することを目指している。
本稿では, 有効長が128Kまで拡張されたジリンを提案する。
コード、データ、モデルをオープンソースにします。
- 参考スコア(独自算出の注目度): 20.976319536167512
- License:
- Abstract: Visual Language Models (VLMs) demonstrate impressive capabilities in processing multimodal inputs, yet applications such as visual agents, which require handling multiple images and high-resolution videos, demand enhanced long-range modeling. Moreover, existing open-source VLMs lack systematic exploration into extending their context length, and commercial models often provide limited details. To tackle this, we aim to establish an effective solution that enhances long context performance of VLMs while preserving their capacities in short context scenarios. Towards this goal, we make the best design choice through extensive experiment settings from data curation to context window extending and utilizing: (1) we analyze data sources and length distributions to construct ETVLM - a data recipe to balance the performance across scenarios; (2) we examine existing position extending methods, identify their limitations and propose M-RoPE++ as an enhanced approach; we also choose to solely instruction-tune the backbone with mixed-source data; (3) we discuss how to better utilize extended context windows and propose hybrid-resolution training. Built on the Qwen-VL series model, we propose Giraffe, which is effectively extended to 128K lengths. Evaluated on extensive long context VLM benchmarks such as VideoMME and Viusal Haystacks, our Giraffe achieves state-of-the-art performance among similarly sized open-source long VLMs and is competitive with commercial model GPT-4V. We will open-source the code, data, and models.
- Abstract(参考訳): ビジュアル言語モデル(VLM)は、マルチモーダル入力を処理する際、印象的な機能を示しているが、視覚エージェントのような、複数の画像や高解像度ビデオを扱う必要のあるアプリケーション、要求の強化された長距離モデリングである。
さらに、既存のオープンソースVLMでは、コンテキスト長の体系的な検討が欠如しており、商用モデルは、しばしば限定的な詳細を提供する。
そこで本研究では,VLMの長期性能を向上し,短時間のコンテキストシナリオでその能力を維持しつつ,有効なソリューションを確立することを目的とする。
本研究の目的は,データキュレーションからコンテキストウィンドウの拡張,活用に至るまでの広範な実験設定を通じて,最適な設計選択を行うことである。(1)データソースと長さ分布を分析してシナリオ間のパフォーマンスのバランスをとるためのデータレシピであるETVLMを構築すること,(2)既存の位置拡張メソッドを検証し,制限を識別し,M-RoPE++を拡張アプローチとして提案すること,(3)バックボーンを混合ソースデータでのみチューニングすること,(3)拡張コンテキストウインドウを効果的に活用する方法,およびハイブリッド解像度トレーニングを提案すること,である。
Qwen-VL シリーズモデルに基づいて構築され、128K まで効果的に拡張された Giraffe を提案する。
ビデオMME や Viusal Haystacks など,広範に長期にわたる VLM ベンチマークを評価した結果,我々の Giraffe は,同様の規模のオープンソース VLM の最先端性能を達成し,商用モデル GPT-4V と競合する。
コード、データ、モデルをオープンソースにします。
関連論文リスト
- InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding [40.784423313750075]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクを扱う上で有望な能力を示しているが、長いコンテキストシナリオでは苦労している。
本稿では,視覚トークンに可変インクリメントを取り入れた新しい位置符号化手法を提案し,長いマルチモーダルシーケンスのより効率的な管理を実現する。
細調整されたモデルでは、標準タスクと長文マルチモーダルタスクの両方で高い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-12-12T18:59:46Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning [25.45278447786954]
MLLM-LLaVA-FL(Multimodal Large Language Model Assisted Federated Learning)と呼ばれる新しいフェデレーション学習フレームワークを導入する。
当社のフレームワークは,Webサイトや強力なサーバサイド計算リソースからアクセス可能な,広範かつ未公開のオープンソースデータを活用することに長けています。
論文 参考訳(メタデータ) (2024-09-09T21:04:16Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - VindLU: A Recipe for Effective Video-and-Language Pretraining [83.49216853881595]
本稿では,VidLモデル設計において最も重要な要素を解明する実証的研究を行う。
これらの経験的洞察を用いて、有効なVidL事前学習のためのステップバイステップレシピVindLUを開発した。
提案手法を用いてトレーニングしたモデルは,VidLタスクにおける最先端結果と同等かそれ以上の精度で達成できる。
論文 参考訳(メタデータ) (2022-12-09T18:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。