論文の概要: DIV-FF: Dynamic Image-Video Feature Fields For Environment Understanding in Egocentric Videos
- arxiv url: http://arxiv.org/abs/2503.08344v1
- Date: Tue, 11 Mar 2025 11:55:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:42:51.969571
- Title: DIV-FF: Dynamic Image-Video Feature Fields For Environment Understanding in Egocentric Videos
- Title(参考訳): DIV-FF:エゴセントリックビデオにおける環境理解のための動的画像-映像特徴場
- Authors: Lorenzo Mur-Labadia, Josechu Guerrero, Ruben Martinez-Cantin,
- Abstract要約: 我々は、エゴセントリックシーンを永続的、動的、アクターベースのコンポーネントに分解するフレームワークであるDynamic Image-Video Feature Fields (DIV FF)を紹介する。
我々のモデルは、詳細なセグメンテーションを可能にし、余裕を捉え、周囲を理解し、時間とともに一貫した理解を維持する。
- 参考スコア(独自算出の注目度): 3.2771631221674333
- License:
- Abstract: Environment understanding in egocentric videos is an important step for applications like robotics, augmented reality and assistive technologies. These videos are characterized by dynamic interactions and a strong dependence on the wearer engagement with the environment. Traditional approaches often focus on isolated clips or fail to integrate rich semantic and geometric information, limiting scene comprehension. We introduce Dynamic Image-Video Feature Fields (DIV FF), a framework that decomposes the egocentric scene into persistent, dynamic, and actor based components while integrating both image and video language features. Our model enables detailed segmentation, captures affordances, understands the surroundings and maintains consistent understanding over time. DIV-FF outperforms state-of-the-art methods, particularly in dynamically evolving scenarios, demonstrating its potential to advance long term, spatio temporal scene understanding.
- Abstract(参考訳): エゴセントリックなビデオにおける環境理解は、ロボット工学、拡張現実、補助技術といったアプリケーションにとって重要なステップである。
これらの映像は、ダイナミックな相互作用と、着用者の環境への関与に強く依存していることが特徴である。
伝統的なアプローチは、しばしば孤立したクリップに焦点を当てたり、リッチなセマンティックな情報や幾何学的な情報を統合するのに失敗し、シーンの理解を制限する。
画像言語とビデオ言語の両方を統合しつつ、エゴセントリックシーンを永続的、動的、アクターベースのコンポーネントに分解するフレームワークであるDynamic Image-Video Feature Fields (DIV FF)を紹介する。
我々のモデルは、詳細なセグメンテーションを可能にし、余裕を捉え、周囲を理解し、時間とともに一貫した理解を維持する。
DIV-FFは、特に動的に進化するシナリオにおいて最先端の手法よりも優れており、長期的、時空間的理解を前進させる可能性を示している。
関連論文リスト
- CrossVideoMAE: Self-Supervised Image-Video Representation Learning with Masked Autoencoders [6.159948396712944]
CrossVideoMAEはビデオレベルとフレームレベルのリッチテンポラル表現とセマンティック属性の両方を学ぶ。
提案手法は,ビデオからの時間的情報とサンプルフレームからの空間的情報を統合する。
これは、ビデオおよびフレーム画像のモダリティから、リッチでラベルなしなガイド信号の自己教師型取得に不可欠である。
論文 参考訳(メタデータ) (2025-02-08T06:15:39Z) - DynVFX: Augmenting Real Videos with Dynamic Content [19.393567535259518]
本稿では,動的コンテンツを新たに生成した実世界の映像を拡大する手法を提案する。
入力ビデオと、所望の内容を記述した簡単なテキスト命令が与えられた場合、本手法は動的オブジェクトや複雑なシーン効果を合成する。
新しいコンテンツの位置、外観、動きは、元の映像にシームレスに統合される。
論文 参考訳(メタデータ) (2025-02-05T21:14:55Z) - Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs [66.57518905079262]
VideoMindは、重要なビデオモーメントを、アロジカルに構造化されたセマンティックグラフに整理する。
ミンドパレス」は、(i)手動追跡、(ii)繰り返し活動の特定領域を表すクラスタ化されたゾーン活動、(iii)環境レイアウトマッピングを通じて重要な情報を整理する。
論文 参考訳(メタデータ) (2025-01-08T08:15:29Z) - One-Shot Learning Meets Depth Diffusion in Multi-Object Videos [0.0]
本稿では,一対のテキスト・ビデオから一対のコヒーレント・多様な映像を生成可能な,新しい深度条件付き手法を提案する。
提案手法は,従来設計した空間的・時間的注意機構を用いて,事前学習したモデルを用いて連続的な動きを捉える。
推論中、ビデオ生成のための構造的ガイダンスを提供するためにDDIMインバージョンを使用する。
論文 参考訳(メタデータ) (2024-08-29T16:58:10Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - HIG: Hierarchical Interlacement Graph Approach to Scene Graph Generation in Video Understanding [8.10024991952397]
既存の手法は単純な関係モデルを活用しながら複雑な相互作用に焦点を当てている。
階層構造内の統一層とグラフを利用する階層型インターレースグラフ (HIG) という新しい手法を提案する。
提案手法は,様々なシナリオで実施された広範囲な実験を通じて,他の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-05T18:47:19Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - EgoEnv: Human-centric environment representations from egocentric video [60.34649902578047]
ファースト・パーソン・ビデオでは、永続的な環境の中でカメラの着用者の活動が強調される。
現在のビデオ理解アプローチは、基礎となる物理空間から切り離された短いビデオクリップから視覚的特徴を引き出す。
本稿では、カメラ装着者の(潜在的に見えない)地域環境を予測できる表現を学習することで、自我中心の映像と環境を結びつけるアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-22T22:39:57Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - Relation-aware Hierarchical Attention Framework for Video Question
Answering [6.312182279855817]
ビデオ中のオブジェクトの静的な関係と動的関係を学習するために,RHA(Relation-aware Hierarchical Attention)フレームワークを提案する。
特に、ビデオや質問は、まず事前訓練されたモデルによって埋め込まれ、視覚とテキストの特徴を得る。
我々は,時間的,空間的,意味的関係を考察し,階層的注意機構によりマルチモーダルな特徴を融合して回答を予測する。
論文 参考訳(メタデータ) (2021-05-13T09:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。