論文の概要: The N-Body Problem: Parallel Execution from Single-Person Egocentric Video
- arxiv url: http://arxiv.org/abs/2512.11393v1
- Date: Fri, 12 Dec 2025 09:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.709758
- Title: The N-Body Problem: Parallel Execution from Single-Person Egocentric Video
- Title(参考訳): N-Body問題:シングルパーソン・エゴセントリックビデオからの並列実行
- Authors: Zhifan Zhu, Yifei Huang, Yoichi Sato, Dima Damen,
- Abstract要約: 自我中心の動画が1つあると、N-Body Problemを導入する。
目標はスピードアップを最大化することだが、個人にビデオセグメントを割り当てることは現実の制約に反することが多い。
本稿では,パフォーマンス(スピードアップ,タスクカバレッジ)と実現可能性の両方を評価するための指標セットを提案する。
EPIC-KitchensとHD-EPICの100本のビデオでは、N = 2の手法により、Gemini 2.5 Proのベースラインプロンプトよりも45%のアクションカバレッジが向上する。
- 参考スコア(独自算出の注目度): 37.97179403509988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can intuitively parallelise complex activities, but can a model learn this from observing a single person? Given one egocentric video, we introduce the N-Body Problem: how N individuals, can hypothetically perform the same set of tasks observed in this video. The goal is to maximise speed-up, but naive assignment of video segments to individuals often violates real-world constraints, leading to physically impossible scenarios like two people using the same object or occupying the same space. To address this, we formalise the N-Body Problem and propose a suite of metrics to evaluate both performance (speed-up, task coverage) and feasibility (spatial collisions, object conflicts and causal constraints). We then introduce a structured prompting strategy that guides a Vision-Language Model (VLM) to reason about the 3D environment, object usage, and temporal dependencies to produce a viable parallel execution. On 100 videos from EPIC-Kitchens and HD-EPIC, our method for N = 2 boosts action coverage by 45% over a baseline prompt for Gemini 2.5 Pro, while simultaneously slashing collision rates, object and causal conflicts by 55%, 45% and 55% respectively.
- Abstract(参考訳): 人間は複雑なアクティビティを直感的に並列化できますが、モデルを1人の観察から学ぶことができますか?
1つの自我中心の動画が与えられたら、我々はN-Body Problemを紹介します:どのようにNの個人が、このビデオで観察された同じタスクセットを仮説的に実行できるか。
目標はスピードアップを最大化することだが、ビデオセグメントの個人への素直な割り当ては、しばしば現実世界の制約に違反し、同じオブジェクトを使用する2人や同じスペースを占有するといった物理的に不可能なシナリオに繋がる。
そこで我々は, N-Body 問題を定式化し, 性能(スピードアップ, タスクカバレッジ)と実現可能性(空間衝突, オブジェクト衝突, 因果制約)の両方を評価するための一連の指標を提案する。
次に、視覚言語モデル(VLM)を誘導し、3D環境、オブジェクトの使用状況、時間的依存関係を推論し、実行可能な並列実行を生成する構造化プロンプト戦略を導入する。
EPIC-KitchensとHD-EPICの100本のビデオでは,ジェミニ2.5プロのベースラインプロンプトよりもN=2のアクションカバレッジが45%向上し,衝突速度,物体・因果衝突を55%,45%,55%削減した。
関連論文リスト
- DMC$^3$: Dual-Modal Counterfactual Contrastive Construction for Egocentric Video Question Answering [66.45476128172444]
エゴセントリックビデオ質問回答(エゴセントリックビデオQA)は、エゴセントリックビデオ理解において重要な役割を果たす。
本稿では,エゴセントリックなビデオカベースライン,反ファクトなサンプル構築モジュール,反ファクトなサンプル関連コントラスト最適化を含むデュアルモーダルなコントラスト構築フレームワークを提案する。
本手法は,EgoTaskQAのテキスト正規分とテキスト間接分を52.51%,46.04%,QAEGO4Dを13.2%とする。
論文 参考訳(メタデータ) (2025-10-23T07:15:18Z) - Object-centric Video Question Answering with Visual Grounding and Referring [43.963739052764595]
我々は、ビデオ推論タスクにおいて、入力参照と出力のグラウンド化の両方を実行することができるビデオLLMモデルを提案する。
また、ビデオ内の残りのフレームに対して、任意の時間スタンプで任意の視覚的プロンプト入力を伝搬する新しいアプローチであるSTOMを提案する。
我々は、ビデオ質問応答やオブジェクトセグメンテーションを参照しながら、VideoInferや他の既存のベンチマークに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-07-25T18:11:23Z) - MindJourney: Test-Time Scaling with World Models for Spatial Reasoning [97.61985090279961]
視覚言語モデルのためのテスト時間スケーリングフレームワークであるMindJourneyを提案する。
我々は,代表的空間推論ベンチマークSATにおいて,MindJourneyが平均7.7%以上の性能向上を達成したことを示す。
また,本手法は,強化学習により訓練した試験時間推定VLMも改善する。
論文 参考訳(メタデータ) (2025-07-16T17:59:36Z) - You Only Estimate Once: Unified, One-stage, Real-Time Category-level Articulated Object 6D Pose Estimation for Robotic Grasping [119.41166438439313]
YOEOは、エンドツーエンドでインスタンスセグメンテーションとNPCS表現を出力する単一ステージのメソッドである。
我々は、統一ネットワークを使用してポイントワイズセマンティックラベルとセントロイドオフセットを生成し、同じパートインスタンスのポイントが同じセントロイドに投票できるようにする。
また,合成学習したモデルを実環境に展開し,200Hzでリアルタイムな視覚フィードバックを提供する。
論文 参考訳(メタデータ) (2025-06-06T03:49:20Z) - A New People-Object Interaction Dataset and NVS Benchmarks [16.909004722367644]
そこで本研究では,30-viewのマルチパーソンまたは1対1のRGB-Dビデオシーケンスからなる新たな人物オブジェクトインタラクションデータセットを提案する。
ビデオシーケンスは30のKinect Azureによってキャプチャされ、シーンを均一に囲み、それぞれ4K解像度25 FPSで、1$sim$19秒続く。
論文 参考訳(メタデータ) (2024-09-03T08:54:15Z) - Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z) - MGNet: Monocular Geometric Scene Understanding for Autonomous Driving [10.438741209852209]
MGNetはモノクロ幾何学的シーン理解のためのマルチタスクフレームワークである。
我々は、単眼の幾何学的シーン理解を、パノプティカルセグメンテーションと自己教師付き単眼深度推定という2つの既知のタスクの組み合わせとして定義する。
我々のモデルは、単一のコンシューマグレードのGPU上で、リアルタイムに高速な推論を提供するために、低レイテンシにフォーカスして設計されている。
論文 参考訳(メタデータ) (2022-06-27T11:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。