論文の概要: EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent
- arxiv url: http://arxiv.org/abs/2507.15428v1
- Date: Mon, 21 Jul 2025 09:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.341236
- Title: EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent
- Title(参考訳): エゴプルーン(EgoPrune)は、エゴモーションビデオ推論のための効果的なトケンプルーニング
- Authors: Jiaao Li, Kaiyuan Li, Chen Gao, Yong Li, Xinlei Chen,
- Abstract要約: EgoPrune(エゴプルーン)は、エゴモーションビデオの推論に適した、トレーニング不要のトークンプルーニング手法である。
EgoPruneは、様々なプルーニング比率で、トレーニング不要のメソッドを一貫して上回っている。
我々はEgoPruneをJetson Orin NX 16GBエッジデバイスを備えたエンボディエージェント上に展開する。
- 参考スコア(独自算出の注目度): 41.11532785015233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egomotion videos are first-person recordings where the view changes continuously due to the agent's movement. As they serve as the primary visual input for embodied AI agents, making egomotion video reasoning more efficient is therefore essential for real-world deployment. Recent advances in vision-language models have enabled strong multimodal reasoning capabilities, but their computational cost remains prohibitive for long, redundant video inputs. Existing token pruning methods, typically designed for third-person videos, fail to leverage the spatiotemporal continuity and motion constraints inherent in egomotion settings. To address this, we propose EgoPrune, a training-free token pruning method tailored for egomotion video reasoning. EgoPrune comprises three components: a keyframe selector adapted from EmbodiedR for temporally efficient sampling; Perspective-Aware Redundancy Filtering (PARF), which aligns visual tokens using perspective transformations and removes redundant tokens; and a Maximal Marginal Relevance (MMR)-based token selector that jointly considers visual-text relevance and intra-frame diversity. Experiments on two egomotion video benchmarks show that EgoPrune consistently outperforms prior training-free methods across various pruning ratios while significantly reducing FLOPs, memory usage, and latency. Moreover, we deploy EgoPrune on an embodied agent equipped with a Jetson Orin NX 16GB edge device, demonstrating its real-world efficiency and suitability for on-device egomotion video reasoning.
- Abstract(参考訳): エゴモーションビデオ(Egomotion video)は、エージェントの動きによってビューが継続的に変化するファースト・パーソン・レコーディングである。
エンボディされたAIエージェントの視覚入力として機能するため、エゴモーションビデオの推論をより効率的にすることが現実のデプロイメントに不可欠である。
近年の視覚言語モデルの進歩は、強力なマルチモーダル推論機能を実現しているが、長い冗長なビデオ入力では計算コストは禁じられている。
既存のトークンプルーニング法は、通常、第三者のビデオ用に設計されているが、エゴモーション設定に固有の時空間の連続性と動きの制約を活用できない。
そこで本稿では,エゴモーションビデオ推論に適した,トレーニング不要なトークンプレーニング手法であるEgoPruneを提案する。
EgoPruneは、時間的に効率的なサンプリングのためにEmbodiedRから適応されたキーフレームセレクタ、視点変換を使用して視覚トークンを整列して冗長トークンを削除するパースペクティブ・アウェア・冗長フィルタリング(PARF)、視覚テキスト関連性とフレーム内多様性を共同で検討する最大マージナル関連(MMR)ベースのトークンセレクタの3つのコンポーネントで構成されている。
2つのエゴモーションビデオベンチマークの実験によると、EgoPruneは、さまざまなプルーニング比率でトレーニング不要のメソッドを一貫して上回り、FLOP、メモリ使用量、レイテンシを大幅に削減している。
さらに、EgoPruneをJetson Orin NX 16GBエッジデバイスを備えたエンボディエージェント上に展開し、実世界の効率性とデバイス上でのエゴモーションビデオ推論への適合性を実証した。
関連論文リスト
- EgoM2P: Egocentric Multimodal Multitask Pretraining [55.259234688003545]
大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
論文 参考訳(メタデータ) (2025-06-09T15:59:25Z) - EgoVLM: Policy Optimization for Egocentric Video Understanding [2.397572703240721]
本稿では,視覚的理解と空間的時間的推論を統合した視覚言語モデルであるEgoVLMを紹介する。
EgoVLMは、モデル出力を人間ライクな推論ステップに合わせるように適応した強化学習手法であるグループ相対ポリシー最適化(GRPO)を介して微調整される。
我々のEgoVLMBは、非CoTエゴセントリックなデータに特化して訓練されており、ベースとなるQwen2.5-VL 3Bと7Bをそれぞれ14.33倍、Egoベンチマークで13.87精度で上回っている。
論文 参考訳(メタデータ) (2025-06-03T17:28:00Z) - SViTT-Ego: A Sparse Video-Text Transformer for Egocentric Video [11.198924693073353]
SViTT-Egoは,エッジとノードのスペーシングを統合した,最初のスパースなエゴセントリックなビデオテキストトランスフォーマーモデルである。
SViTT-Ego は LAVILA に比べて EgoMCQ の精度が 2.8% 向上している。
論文 参考訳(メタデータ) (2024-06-13T03:57:38Z) - Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? [48.702973928321946]
Egocentric Video-Language Pretrainingは、一対一のシナリオにおける手動対話の理解を促進するための重要なステップである。
既存のテストベッドでの成功にもかかわらず、現在のEgoVLMは簡単な修正によって容易に誤認できることがわかった。
EgoVLMは手動オブジェクトの相互作用を本当に理解していますか?
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - EgoVSR: Towards High-Quality Egocentric Video Super-Resolution [23.50915512118989]
EgoVSRは、エゴセントリックビデオ用に特別に設計されたビデオ超解法フレームワークである。
VSRフレームワークのDual Branch Deblur Network (DB$2$Net) を用いて,エゴセントリックな動画における動きのぼかしに明示的に対処する。
一般的なVSRトレーニングデータに対するオンラインモーションブラー合成モデルを提案し,エゴセントリックビデオのような動きブラーをシミュレートした。
論文 参考訳(メタデータ) (2023-05-24T04:25:51Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - EgoDistill: Egocentric Head Motion Distillation for Efficient Video
Understanding [90.9111678470214]
本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。
提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。
Ego4D と EPICKitchens のデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:39:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。