論文の概要: HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.20444v1
- Date: Mon, 26 May 2025 18:37:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.25059
- Title: HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models
- Title(参考訳): HoPE:視覚言語モデルにおける長さ一般化のための位置埋め込みハイブリッド
- Authors: Haoran Li, Yingjie Qin, Baoyuan Ou, Lai Xu, Ruiwen Xu,
- Abstract要約: VLM(Vision-Language Models)は、マルチモーダルタスクにおいて大きな進歩を遂げた。
しかし、長文のシナリオではパフォーマンスが劣化することが多い。
本稿では,VLMの長文処理能力を改善するために,位置埋め込みのハイブリッドであるHoPEを提案する。
- 参考スコア(独自算出の注目度): 4.105127179940934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have made significant progress in multimodal tasks. However, their performance often deteriorates in long-context scenarios, particularly long videos. While Rotary Position Embedding (RoPE) has been widely adopted for length generalization in Large Language Models (LLMs), extending vanilla RoPE to capture the intricate spatial-temporal dependencies in videos remains an unsolved challenge. Existing methods typically allocate different frequencies within RoPE to encode 3D positional information. However, these allocation strategies mainly rely on heuristics, lacking in-depth theoretical analysis. In this paper, we first study how different allocation strategies impact the long-context capabilities of VLMs. Our analysis reveals that current multimodal RoPEs fail to reliably capture semantic similarities over extended contexts. To address this issue, we propose HoPE, a Hybrid of Position Embedding designed to improve the long-context capabilities of VLMs. HoPE introduces a hybrid frequency allocation strategy for reliable semantic modeling over arbitrarily long context, and a dynamic temporal scaling mechanism to facilitate robust learning and flexible inference across diverse context lengths. Extensive experiments across four video benchmarks on long video understanding and retrieval tasks demonstrate that HoPE consistently outperforms existing methods, confirming its effectiveness. Code is available at https://github.com/hrlics/HoPE.
- Abstract(参考訳): VLM(Vision-Language Models)は、マルチモーダルタスクにおいて大きな進歩を遂げた。
しかし、長いコンテキストシナリオ、特に長いビデオではパフォーマンスが劣化することが多い。
RoPE(Rotary Position Embedding)は、Large Language Models (LLMs) における長さ一般化に広く採用されているが、ビデオ内の複雑な空間的依存関係を捉えるためにバニラRoPEを拡張することは未解決の課題である。
既存の方法では、3D位置情報を符号化するためにRoPE内の異なる周波数を割り当てるのが一般的である。
しかし、これらのアロケーション戦略は主にヒューリスティックに頼り、詳細な理論分析を欠いている。
本稿では,VLMの長文処理能力に異なるアロケーション戦略がどう影響するかを最初に検討する。
解析の結果,現在のマルチモーダルな RoPE は拡張コンテキスト上で意味的類似性を確実に捉えることができないことがわかった。
この問題に対処するために,VLMの長文化機能を改善するために,位置埋め込みのハイブリッドであるHoPEを提案する。
HoPEは、任意に長いコンテキストに対する信頼性のあるセマンティックモデリングのためのハイブリッド周波数割当戦略と、様々なコンテキストの長さにわたる堅牢な学習と柔軟な推論を容易にする動的時間スケーリングメカニズムを導入している。
長時間のビデオ理解と検索タスクに関する4つのビデオベンチマークによる大規模な実験は、HoPEが既存の手法を一貫して上回り、その有効性を確認していることを示している。
コードはhttps://github.com/hrlics/HoPEで入手できる。
関連論文リスト
- ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - VRoPE: Rotary Position Embedding for Video Large Language Models [13.495442349395287]
テキストベース大規模言語モデル(LLM)における位置埋め込み(RoPE)の性能は高い。
RoPE-3Dのようなビデオ適応は、空間次元と時間次元を別々に符号化しようとするが、2つの大きな制限に悩まされる。
ビデオLLMに適した新しい位置符号化法である位置ロータリー埋め込み(VRoPE)を提案する。
論文 参考訳(メタデータ) (2025-02-17T10:53:57Z) - VideoRoPE: What Makes for Good Video Rotary Position Embedding? [109.88966080843608]
VideoRoPEは、長いビデオ検索、ビデオ理解、ビデオ幻覚といった様々な下流タスクにまたがって、従来型のRoPEを一貫して上回っている。
VideoRoPEは、周期的振動を緩和するためのテキスト低周波時間割当、空間対称性を維持するためのテキスト対角配置、時間的および空間的インデックスを分離するためのテキスト調整可能な時間間隔を備えている。
論文 参考訳(メタデータ) (2025-02-07T18:56:04Z) - InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。
このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文 参考訳(メタデータ) (2024-12-12T18:58:30Z) - HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation [19.42279057349193]
位置符号化(PE)は、長く続く帰納的意見に基づいて、長期的な腐敗を示すように設計されている。
我々は、LLMがコンテキスト内情報の正確な検索を要求するタスクに適用されるようになったため、LLMの時代において長期の崩壊は時代遅れであると主張している。
論文 参考訳(メタデータ) (2024-10-28T17:01:52Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Resonance RoPE: Improving Context Length Generalization of Large Language Models [37.749813693281254]
本稿では,ロータリー位置埋め込み(RoPE)を備えた大規模言語モデル(LLM)におけるTSTLシナリオの課題について述べる。
本稿では,TSTLシナリオの一般化ギャップを狭めるための新しい手法であるResonance RoPEを紹介する。
本稿では,TSTLシナリオの微粒化挙動解析に特化して設計された,新しい合成ベンチマークPosGenを提案する。
論文 参考訳(メタデータ) (2024-02-29T19:02:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。