論文の概要: Ego-InBetween: Generating Object State Transitions in Ego-Centric Videos
- arxiv url: http://arxiv.org/abs/2604.17749v1
- Date: Mon, 20 Apr 2026 03:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.6723
- Title: Ego-InBetween: Generating Object State Transitions in Ego-Centric Videos
- Title(参考訳): Ego-InBetween:Ego-Centric Videoにおけるオブジェクト状態遷移の生成
- Authors: Mengmeng Ge, Takashi Isobe, Xu Jia, Yanan Sun, Zetong Yang, Weinong Wang, Dong Zhou, Dong Li, Huchuan Lu, Emad Barsoum,
- Abstract要約: EgoInは、TransitionVLMを使用して、2つの与えられた状態間のマルチステップ遷移プロセスを推論するフレームワークである。
提案したトランジションコンディショニングモジュールによって生成される遷移条件に基づいて,フレームのシーケンスを生成する。
人間オブジェクトとロボットオブジェクトのインタラクションデータセットの実験は、意味的に意味があり、視覚的にコヒーレントな変換シーケンスを生成する上で、EgoInの優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 56.20829168540647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding physical transformation processes is crucial for both human cognition and artificial intelligence systems, particularly from an egocentric perspective, which serves as a key bridge between humans and machines in action modeling. We define this modeling process as Egocentric Instructed Visual State Transition (EIVST), which involves generating intermediate frames that depict object transformations between initial and target states under a brief action instruction. EIVST poses two challenges for current generative models: (1) understanding the visual scenes of the initial and target states and reasoning about transformation steps from an egocentric view, and (2) generating a consistent intermediate transition that follows the given instruction while preserving object appearance across the two visual states. To address these challenges, we propose the EgoIn framework. It first infers the multi-step transition process between two given states using TransitionVLM, fine-tuned on our curated dataset to better adapt to this task and reduce hallucinated information. It then generates a sequence of frames based on transition conditions produced by the proposed Transition Conditioning module. Additionally, we introduce Object-aware Auxiliary Supervision to preserve consistent object appearance throughout the transition. Extensive experiments on human-object and robot-object interaction datasets demonstrate EgoIn's superior performance in generating semantically meaningful and visually coherent transformation sequences.
- Abstract(参考訳): 物理的トランスフォーメーションプロセスを理解することは、人間の認知と人工知能システムの両方にとって、特に人間と機械のアクションモデリングにおける重要な橋渡しとなるエゴセントリックな視点から、不可欠である。
我々は、このモデリングプロセスをEgocentric Instructed Visual State Transition (EIVST)と定義し、簡単なアクション命令の下で初期状態と目標状態の間のオブジェクト変換を記述する中間フレームを生成する。
EIVSTは,(1)初期状態と目標状態の視覚的シーンの理解,(2)自己中心的な視点からの変換ステップの推論,(2)与えられた指示に従う一貫した中間遷移の生成,そして2つの視覚状態のオブジェクトの外観を保ちながら,現在の生成モデルに2つの課題を提起する。
これらの課題に対処するため、EgoInフレームワークを提案する。
まず、TransitionVLMを使って与えられた2つの状態間の多段階遷移プロセスを推論し、このタスクに適応し、幻覚情報を削減する。
そして、提案した遷移条件モジュールによって生成される遷移条件に基づいて、フレームのシーケンスを生成する。
さらに、遷移を通して一貫したオブジェクトの外観を維持するために、Object-Aware Auxiliary Supervisionを導入します。
人間オブジェクトとロボットオブジェクトの相互作用データセットに関する大規模な実験は、意味的に意味があり、視覚的にコヒーレントな変換シーケンスを生成する上で、EgoInの優れたパフォーマンスを示している。
関連論文リスト
- Towards Stable Self-Supervised Object Representations in Unconstrained Egocentric Video [8.642846048553041]
本研究では,非ラベル付きエゴセントリックビデオから安定したオブジェクト表現を学習するための統合ビジョントランスフォーマーフレームワークを提案する。
EgoViTは「プロトオブジェクト」を共同で発見・安定化することでこの学習プロセスをブートストラップする
EgoViTは、教師なしオブジェクト発見における+8.0%のCorLoc改善と、セマンティックセグメンテーションにおける+4.8%のmIoU改善を実現している。
論文 参考訳(メタデータ) (2026-03-14T12:00:55Z) - DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning [24.808926786222376]
本研究では,DreamActor-M2を提案する。DreamActor-M2は,動作条件をコンテキスト内学習問題として再定義する汎用アニメーションフレームワークである。
まず、参照の出現と動きの手がかりを統一された潜在空間に融合させることにより、入力モダリティギャップを橋渡しする。
次に、擬似的クロスアイデンティティトレーニングペアをキュレートする自己ブートストラップデータ合成パイプラインを導入する。
論文 参考訳(メタデータ) (2026-01-29T13:43:17Z) - ByteLoom: Weaving Geometry-Consistent Human-Object Interactions through Progressive Curriculum Learning [19.292101162897975]
本稿では,幾何的に一貫したオブジェクト図面を持つ実写HOIビデオを生成するByteLoomを紹介する。
まず、相対座標マップ(RCM)をオブジェクトの幾何整合性を維持する普遍表現として活用するRCM-cache機構を提案する。
次に、モデル能力を進歩的なスタイルで向上し、ハンドメッシュの需要を緩和するトレーニングカリキュラムを設計する。
論文 参考訳(メタデータ) (2025-12-28T09:38:36Z) - ECHO: Ego-Centric modeling of Human-Object interactions [71.17118015822699]
ECHO (Ego-Centric Modeling of Human-Object Interaction) を開発した。
人間のポーズ、物体の動き、そしてそのような最小限の観察から接触の3つのモダリティを回復する。
同じ柔軟性を提供しない既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-08-29T12:12:22Z) - GoViG: Goal-Conditioned Visual Navigation Instruction Generation [69.79110149746506]
本稿では,Goal-Conditioned Visual Navigation Instruction Generation (GoViG)を紹介する。
GoViGは生のエゴセントリックな視覚データのみを活用し、目に見えない非構造環境への適応性を大幅に改善する。
論文 参考訳(メタデータ) (2025-08-13T07:05:17Z) - iDiT-HOI: Inpainting-based Hand Object Interaction Reenactment via Video Diffusion Transformer [43.58952721477297]
そこで本論文では,新たなフレームワークであるiDiT-HOIについて述べる。
具体的には,2段階ビデオ拡散変換器(DiT)モデルを用いて,Inp-TPUと呼ばれる一体化インペイントベースのトークン処理手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T13:41:43Z) - M$^3$-VOS: Multi-Phase, Multi-Transition, and Multi-Scenery Video Object Segmentation [51.82272563578793]
本稿では,その視覚的特徴と潜在的な形態的・外見的変化に基づいて,現実世界の物体を分類するセグメンテーションにおける位相の概念を紹介する。
本稿では,オブジェクトの位相を理解するためのモデルの有効性を検証するために,新しいベンチマーク,Multi-Phase,Multi-Transition,Multi-Scenery Video Object (M$3$-VOS)を提案する。
論文 参考訳(メタデータ) (2024-12-18T12:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。