論文の概要: HY-Himmel Technical Report: Hierarchical Interleaved Multi-stream Motion Encoding for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2605.08158v1
- Date: Mon, 04 May 2026 09:35:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.407274
- Title: HY-Himmel Technical Report: Hierarchical Interleaved Multi-stream Motion Encoding for Long Video Understanding
- Title(参考訳): HY-Himmelテクニカルレポート:階層型インターリーブ多ストリームモーションエンコーディングによる長時間ビデオ理解
- Authors: Haopeng Jin, Hongzhu Yi, Wenlong Zhao, Jinwen Luo, Shani Ye, Zhenyu Guan, Shiquan Dong, Tiankun Yang, Tao Yu,
- Abstract要約: HY-Himmelは階層的なビデオ言語フレームワークで、セマンティックとモーションのキャパシティを別々に割り当てている。
Video-MMEでは、HY-Himmelは32フレームの高密度ベースラインを+2.3 pp (61.2から63.5%)超え、コンテキストトークンは3.6倍少ない。
- 参考スコア(独自算出の注目度): 13.606091816002879
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Long-video understanding with multimodal language models suffers from three compounding bottlenecks: heavy decode cost to obtain dense RGB frames, quadratic token growth with frame count, and weak motion perception under sparse keyframe sampling. We present HY-Himmel, a hierarchical video-language framework that allocates semantic and motion capacity separately. A small set of sparse anchor I-frames is routed to the expensive host ViT to ground object identity and scene layout, while the far denser inter-frame intervals are encoded by a lightweight compressed-domain tri-stream adapter that distils motion evidence from motion-vector maps, residual maps, and I-frame context into aligned motion tokens. These tokens are injected into the LLM via a differentiable placeholder mechanism after a dedicated Stage-1 contrastive alignment that places the motion representation in a geometry compatible with the frozen visual backbone. On Video-MME, HY-Himmel surpasses the dense 32-frame baseline by +2.3 pp (61.2 to 63.5%) while using 3.6x fewer context tokens. Extensive ablations over stream composition, motion encoder family, fusion mode, alignment objective, anchor count, LoRA rank, and video duration confirm that the full tri-stream is necessary and sufficient for the observed gains.
- Abstract(参考訳): マルチモーダル言語モデルによる長期ビデオ理解には,高密度なRGBフレームを得るためのデコードコスト,フレームカウントによる2次トークン成長,スパースキーフレームサンプリング時の弱い動き知覚という,複雑なボトルネックが3つある。
本稿では,セマンティック・モーション・キャパシティを個別に割り当てる階層型ビデオ言語フレームワークHY-Himmelを提案する。
粗いアンカーIフレームの小さなセットを高価なホストViTにルーティングし、オブジェクトのアイデンティティとシーンレイアウトを地上に配置する一方、はるかに密集したフレーム間間隔は、モーションベクトルマップ、残留マップ、Iフレームコンテキストからの動作証拠をアライメントされたモーショントークンに除去する軽量な圧縮領域トリストリームアダプタによって符号化される。
これらのトークンは、凍った視覚バックボーンと互換性のある形状に運動表現を配置する専用のStage-1コントラストアライメントの後、微分可能なプレースホルダ機構を介してLSMに注入される。
Video-MMEでは、HY-Himmelは32フレームの高密度ベースラインを+2.3 pp (61.2から63.5%)超え、コンテキストトークンは3.6倍少ない。
ストリーム構成、モーションエンコーダファミリー、融合モード、アライメント目標、アンカー数、LoRAランク、ビデオ時間に対する広範囲の短縮により、観測された利得に対して完全な三流が必要であることが確認された。
関連論文リスト
- Feeling the Space: Egomotion-Aware Video Representation for Efficient and Accurate 3D Scene Understanding [9.774606705982874]
本稿では,感情モダリティデータを用いたMLLM(Large Language Models)を大幅に強化する。
運動MLLMは、身体的運動軌跡の視覚的内容のグラウンド化によって、シーン全体にわたる絶対的なスケールと空間的関係を推論することができる。
ビデオフレームと明示的な3Dデータに基づく最新技術(SOTA)手法と比較して、Motion-MLLMはオーバーヘッドをはるかに少なく、類似またはそれ以上の精度を示す。
論文 参考訳(メタデータ) (2026-03-18T17:42:49Z) - MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment [32.178798481694834]
3つの課題に対処するために設計された,階層的なコントラスト学習フレームワークであるMoBindを紹介する。
モーション関連キューを分離するために、MoBindはIMU信号を生のピクセルではなく骨格的なモーションシーケンスと整列する。
詳細な時間的対応を捉えるために、MoBindは階層的なコントラスト戦略を採用し、まずトークンレベルの時間的セグメントを整列させ、次にグローバル(体全体)のモーションアグリゲーションと局所的な(身体部分)アライメントを融合させる。
論文 参考訳(メタデータ) (2026-02-22T01:54:29Z) - VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。