論文の概要: VideoRoPE: What Makes for Good Video Rotary Position Embedding?
- arxiv url: http://arxiv.org/abs/2502.05173v1
- Date: Fri, 07 Feb 2025 18:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:22.892224
- Title: VideoRoPE: What Makes for Good Video Rotary Position Embedding?
- Title(参考訳): VideoRoPE:良いビデオロータリーの位置を埋め込むには?
- Authors: Xilin Wei, Xiaoran Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Jian Tong, Haodong Duan, Qipeng Guo, Jiaqi Wang, Xipeng Qiu, Dahua Lin,
- Abstract要約: VideoRoPEは、長いビデオ検索、ビデオ理解、ビデオ幻覚といった様々な下流タスクにまたがって、従来型のRoPEを一貫して上回っている。
VideoRoPEは、周期的振動を緩和するためのテキスト低周波時間割当、空間対称性を維持するためのテキスト対角配置、時間的および空間的インデックスを分離するためのテキスト調整可能な時間間隔を備えている。
- 参考スコア(独自算出の注目度): 109.88966080843608
- License:
- Abstract: While Rotary Position Embedding (RoPE) and its variants are widely adopted for their long-context capabilities, the extension of the 1D RoPE to video, with its complex spatio-temporal structure, remains an open challenge. This work first introduces a comprehensive analysis that identifies four key characteristics essential for the effective adaptation of RoPE to video, which have not been fully considered in prior work. As part of our analysis, we introduce a challenging V-NIAH-D (Visual Needle-In-A-Haystack with Distractors) task, which adds periodic distractors into V-NIAH. The V-NIAH-D task demonstrates that previous RoPE variants, lacking appropriate temporal dimension allocation, are easily misled by distractors. Based on our analysis, we introduce \textbf{VideoRoPE}, with a \textit{3D structure} designed to preserve spatio-temporal relationships. VideoRoPE features \textit{low-frequency temporal allocation} to mitigate periodic oscillations, a \textit{diagonal layout} to maintain spatial symmetry, and \textit{adjustable temporal spacing} to decouple temporal and spatial indexing. VideoRoPE consistently surpasses previous RoPE variants, across diverse downstream tasks such as long video retrieval, video understanding, and video hallucination. Our code will be available at \href{https://github.com/Wiselnn570/VideoRoPE}{https://github.com/Wiselnn570/VideoRoPE}.
- Abstract(参考訳): RoPE(Rotary Position Embedding)とその派生型は、長いコンテキスト能力に広く採用されているが、複雑な時空間構造を持つビデオへの1D RoPEの拡張は、依然としてオープンな課題である。
本研究は,ビデオへのRoPEの有効適応に不可欠な4つの重要な特徴を包括的解析により同定する。
分析の一環として,V-NIAH-D(Visual Needle-In-A-Haystack with Distractors)タスクを導入する。
V-NIAH-D タスクは、適切な時間次元の割り当てを欠いた以前の RoPE 変種が、気晴らしによって容易に誤解されることを示した。
本分析に基づき,時空間関係の保存を目的とした \textit{3D 構造を持つ \textbf{VideoRoPE} を導入する。
VideoRoPEは、周期的な振動を緩和するために \textit{low- frequency temporal allocation} 、空間対称性を維持するために \textit{diagonal layout} 、時間的および空間的インデックスを分離するために \textit{adjustable temporal spacing} を特徴付ける。
VideoRoPEは、長いビデオ検索、ビデオ理解、ビデオ幻覚といった様々な下流タスクにまたがって、従来型のRoPEを一貫して上回っている。
私たちのコードは、 \href{https://github.com/Wiselnn570/VideoRoPE}{https://github.com/Wiselnn570/VideoRoPE}で利用可能です。
関連論文リスト
- HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation [19.42279057349193]
位置符号化(PE)は、長く続く帰納的意見に基づいて、長期的な腐敗を示すように設計されている。
我々は、LLMがコンテキスト内情報の正確な検索を要求するタスクに適用されるようになったため、LLMの時代において長期の崩壊は時代遅れであると主張している。
論文 参考訳(メタデータ) (2024-10-28T17:01:52Z) - Round and Round We Go! What makes Rotary Positional Encodings useful? [15.543752938828831]
メカニカルレベルでの RoPE の使用方法を理解するため, トレーニングされた Gemma 7B モデルの内部構造について検討した。
Gemma は,RoPE を用いて高周波数を利用してロバストな「位置的」アテンションパターンを構築することを学ぶ。
強調された問題を修正し、性能を向上するRoPEの修正を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:07:01Z) - 3D-RPE: Enhancing Long-Context Modeling Through 3D Rotary Position Encoding [12.335958945925437]
3Dロータリー位置(3D-RPE)と呼ばれる3次元球面上の新しい回転位置符号化法を提案する。
3D-RPEは広く使われている2Dロータリーポジション(RoPE)の先進型である。
制御可能な長期崩壊に対して、3D-RPEはチャンクサイズ内での長期崩壊の制御を可能にする。
位置分解能を高めるため、3D-RPEはRoPE上の位置分解能の劣化を軽減することができる。
論文 参考訳(メタデータ) (2024-06-14T10:13:37Z) - Rotary Position Embedding for Vision Transformer [44.27871591624888]
本研究では、視覚変換器(ViT)に適用した場合の回転位置埋め込み(RoPE)の包括的解析を提供する。
RoPEは印象的な補間性能、すなわち推論時の画像解像度を増大させながら精度を維持する。
最終的にImageNet-1k、COCO検出、ADE-20kセグメンテーションのパフォーマンスが向上した。
論文 参考訳(メタデータ) (2024-03-20T04:47:13Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding
in Long Videos [60.86880787242561]
ビデオ時間グラウンドは、クエリ記述にマッチしたビデオセグメントをピンポイントすることを目的としている。
高速な時間的グラウンド化のためのエンドツーエンドのフレームワークを提案する。
提案手法は最先端技術よりも優れ,textbf14.6$times$ / textbf102.8$times$高効率を実現している。
論文 参考訳(メタデータ) (2023-03-15T03:54:43Z) - Towards Robust Referring Video Object Segmentation with Cyclic
Relational Consensus [42.14174599341824]
Referring Video Object (R-VOS) は、言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした課題である。
既存のほとんどのR-VOSメソッドは重要な仮定を持ち、参照されるオブジェクトはビデオに表示されなければならない。
本研究では,意味的ミスマッチを扱えるロバストなR-VOSモデルの必要性を強調した。
論文 参考訳(メタデータ) (2022-07-04T05:08:09Z) - Temporal RoI Align for Video Object Recognition [107.07049115214924]
提案したTemporal RoI Alignオペレータは、提案のためにビデオ全体から時間情報を抽出することができる。
我々は、これを単フレームビデオ検出器や他の最先端ビデオ検出器に統合し、定量的実験を行い、提案した時間RoI Alignオペレーターが連続的に性能を著しく向上できることを実証する。
論文 参考訳(メタデータ) (2021-09-08T08:35:21Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences [107.0776836117313]
STVGは、トリミングされていないビデオと宣言的/解釈的な文が与えられた場合、クエリされたオブジェクトの時間管をローカライズすることを目的としている。
既存の手法では、非効率なチューブ前世代と新しいオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。
本稿では,この課題に対する宣言型時間グラフ推論ネットワーク(STGRN)を提案する。
論文 参考訳(メタデータ) (2020-01-19T19:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。