Fugu-MT 論文翻訳(概要): VRoPE: Rotary Position Embedding for Video Large Language Models

論文の概要: VRoPE: Rotary Position Embedding for Video Large Language Models

arxiv url: http://arxiv.org/abs/2502.11664v1
Date: Mon, 17 Feb 2025 10:53:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.224002
Title: VRoPE: Rotary Position Embedding for Video Large Language Models
Title（参考訳）: VRoPE:ビデオ大言語モデルのためのロータリー位置埋め込み
Authors: Zikang Liu, Longteng Guo, Yepeng Tang, Junxian Cai, Kai Ma, Xi Chen, Jing Liu,
Abstract要約: テキストベース大規模言語モデル(LLM)における位置埋め込み(RoPE)の性能は高い。 RoPE-3Dのようなビデオ適応は、空間次元と時間次元を別々に符号化しようとするが、2つの大きな制限に悩まされる。ビデオLLMに適した新しい位置符号化法である位置ロータリー埋め込み(VRoPE)を提案する。
参考スコア（独自算出の注目度）: 14.292586301871196
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Rotary Position Embedding (RoPE) has shown strong performance in text-based Large Language Models (LLMs), but extending it to video remains a challenge due to the intricate spatiotemporal structure of video frames. Existing adaptations, such as RoPE-3D, attempt to encode spatial and temporal dimensions separately but suffer from two major limitations: positional bias in attention distribution and disruptions in video-text transitions. To overcome these issues, we propose Video Rotary Position Embedding (VRoPE), a novel positional encoding method tailored for Video-LLMs. Our approach restructures positional indices to preserve spatial coherence and ensure a smooth transition between video and text tokens. Additionally, we introduce a more balanced encoding strategy that mitigates attention biases, ensuring a more uniform distribution of spatial focus. Extensive experiments on Vicuna and Qwen2 across different model scales demonstrate that VRoPE consistently outperforms previous RoPE variants, achieving significant improvements in video understanding, temporal reasoning, and retrieval tasks. Code will be available at https://github.com/johncaged/VRoPE
Abstract（参考訳）: RoPE (Rotary Position Embedding) はテキストベースのLarge Language Models (LLMs) において高い性能を示したが、ビデオフレームの複雑な時空間構造のためにビデオに拡張することは依然として困難である。 RoPE-3Dのような既存の適応は、空間次元と時間次元を別々にエンコードしようとするが、注意分布における位置バイアスとビデオテキスト遷移における破壊という2つの大きな制限に悩まされる。これらの課題を克服するために,ビデオLLMに適した新しい位置符号化手法であるVRoPE(Video Rotary Position Embedding)を提案する。提案手法は位置指標を再構成して空間的コヒーレンスを維持し,ビデオトークンとテキストトークン間のスムーズな遷移を確保する。さらに、よりバランスの取れた符号化戦略を導入し、注意バイアスを緩和し、空間焦点のより均一な分布を確保する。異なるモデルスケールにわたるVicunaとQwen2の大規模な実験は、VRoPEが従来のRoPEよりも一貫して優れており、ビデオ理解、時間的推論、検索タスクにおいて大幅に改善されていることを示している。コードはhttps://github.com/johncaged/VRoPEで入手できる。

関連論文リスト

LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文参考訳（メタデータ） (2025-07-17T09:46:43Z)
HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models [4.105127179940934]
VLM(Vision-Language Models)は、マルチモーダルタスクにおいて大きな進歩を遂げた。しかし、長文のシナリオではパフォーマンスが劣化することが多い。本稿では,VLMの長文処理能力を改善するために,位置埋め込みのハイブリッドであるHoPEを提案する。
論文参考訳（メタデータ） (2025-05-26T18:37:40Z)
Circle-RoPE: Cone-like Decoupled Rotary Positional Embedding for Large Vision-Language Models [35.471513870514585]
ロータリー位置埋め込み(RoPE)は,大規模言語モデルにおいて相対位置情報を符号化する手法として広く採用されている。 RoPEの変種はテキストトークンインデックスと画像トークン間の相対的な位置依存を強制し、急激なアライメントを引き起こす。画像トークンインデックスを円軌道に写し、テキストトークンインデックスの直線経路にマッピングし、円錐状構造を形成する新しい符号化方式であるCircle-RoPEを導入する。
論文参考訳（メタデータ） (2025-05-22T09:05:01Z)
VGDFR: Diffusion-based Video Generation with Dynamic Latent Frame Rate [16.826081397057774]
VGDFRは動的遅延フレームレートを持つ拡散型ビデオ生成のためのトレーニング不要のアプローチである。 VGDFRは、画質の劣化を最小限に抑えながら、ビデオ生成において最大3倍の高速化を実現することができることを示す。
論文参考訳（メタデータ） (2025-04-16T17:09:13Z)
Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文参考訳（メタデータ） (2025-03-26T01:47:42Z)
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文参考訳（メタデータ） (2025-03-14T15:36:39Z)
VideoRoPE: What Makes for Good Video Rotary Position Embedding? [109.88966080843608]
VideoRoPEは、長いビデオ検索、ビデオ理解、ビデオ幻覚といった様々な下流タスクにまたがって、従来型のRoPEを一貫して上回っている。 VideoRoPEは、周期的振動を緩和するためのテキスト低周波時間割当、空間対称性を維持するためのテキスト対角配置、時間的および空間的インデックスを分離するためのテキスト調整可能な時間間隔を備えている。
論文参考訳（メタデータ） (2025-02-07T18:56:04Z)
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。 DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文参考訳（メタデータ） (2024-10-22T21:21:37Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。 TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文参考訳（メタデータ） (2023-10-29T16:25:32Z)
DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and View-Change Human-Centric Video Editing [48.086102360155856]
本稿では,革新的映像表現として動的ニューラルラジアンス場(NeRF)を紹介する。本稿では,一貫した編集が可能な画像ベースビデオNeRF編集パイプラインを提案する。我々の手法はDynVideo-Eと呼ばれ、2つの挑戦的データセットに対するSOTAのアプローチを、人間の好みに対して50%の差で大幅に上回っている。
論文参考訳（メタデータ） (2023-10-16T17:48:10Z)
Unsupervised Video Domain Adaptation for Action Recognition: A Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。 TranSVAEフレームワークはそのような世代をモデル化するために開発される。 UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文参考訳（メタデータ） (2022-08-15T17:59:31Z)
Stand-Alone Inter-Frame Attention in Video Models [164.06137994796487]
フレーム間アテンションブロック,すなわちスタンドアローン時空間アテンション(SIFA)の新たなレシピを提案する。 SIFAは、2つのフレームの違いによってオフセット予測を再スケーリングすることで、変形可能な設計を再構築する。さらに、SIFAブロックをConvNetsとVision Transformerにプラグインし、SIFA-NetとSIFA-Transformerを考案する。
論文参考訳（メタデータ） (2022-06-14T15:51:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。