論文の概要: World Model on Million-Length Video And Language With Blockwise RingAttention
- arxiv url: http://arxiv.org/abs/2402.08268v4
- Date: Mon, 03 Feb 2025 21:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:54:22.672779
- Title: World Model on Million-Length Video And Language With Blockwise RingAttention
- Title(参考訳): World Model on Million-Length Video and Language with Blockwise RingAttention
- Authors: Hao Liu, Wilson Yan, Matei Zaharia, Pieter Abbeel,
- Abstract要約: 我々は、言語検索における新しいベンチマークと、長いビデオ理解における新しい機能を設定した。
長いシーケンスでスケーラブルなトレーニングを行うための効率的なオープンソース実装を提案する。
我々は,100万トークンを超える長文文書や動画を処理できる7Bパラメータモデルのファミリをオープンソースとして公開した。
- 参考スコア(独自算出の注目度): 75.82014160713348
- License:
- Abstract: Enabling long-context understanding remains a key challenge in scaling existing sequence models -- a crucial component in developing generally intelligent models that can process and operate over long temporal horizons that potentially consist of millions of tokens. In this paper, we aim to address these challenges by providing a comprehensive exploration of the full development process for producing 1M context language models and video-language models, setting new benchmarks in language retrieval and new capabilities in long video understanding. We detail our long context data curation process, progressive context extension from 4K to 1M tokens, and present an efficient open-source implementation for scalable training on long sequences. Additionally, we open-source a family of 7B parameter models capable of processing long text documents and videos exceeding 1M tokens.
- Abstract(参考訳): 数百万のトークンからなる可能性のある長時間の時間的地平線を処理し、操作できる、一般的にインテリジェントなモデルを開発する上で、既存のシーケンスモデルをスケールする上で、長いコンテキスト理解は依然として重要な課題である。
本稿では,100Mコンテキスト言語モデルとビデオ言語モデルを作成するための開発プロセスの全過程を包括的に調査し,言語検索における新たなベンチマークを設定し,長大なビデオ理解における新たな機能を実現することにより,これらの課題に対処することを目的とする。
長いコンテキストデータキュレーションプロセス,4Kトークンから1Mトークンへのプログレッシブコンテキスト拡張,および長いシーケンス上でのスケーラブルなトレーニングのための効率的なオープンソース実装について詳述する。
さらに,100万トークンを超える長文文書や動画を処理可能な7Bパラメータモデルのファミリをオープンソースとして公開した。
関連論文リスト
- Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuracy [111.1291107651131]
Long-VITAは、長いコンテキストの視覚言語理解タスクのための大規模なマルチモーダルモデルである。
4Kフレームまたは1Mトークン上で、画像、ビデオ、テキストのモダリティを同時に処理し、分析するのに適している。
Long-VITAは完全に再現可能で、トレーニングとテストのためにNPUとGPUプラットフォームの両方をサポートする。
論文 参考訳(メタデータ) (2025-02-07T18:59:56Z) - Bootstrap Your Own Context Length [74.61148597039248]
長文言語モデルを学習するためのブートストラップ手法を提案する。
提案したデータ合成ワークフローは、短いコンテキスト言語モデル、テキスト検索、文書収集のみを必要とする。
我々は,オープンソースのLlama-3ファミリを用いて実験を行い,最大100万トークンまでコンテキスト長を拡張できることを実証した。
論文 参考訳(メタデータ) (2024-12-25T10:08:54Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。