論文の概要: EgoHandICL: Egocentric 3D Hand Reconstruction with In-Context Learning
- arxiv url: http://arxiv.org/abs/2601.19850v1
- Date: Tue, 27 Jan 2026 17:58:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.429
- Title: EgoHandICL: Egocentric 3D Hand Reconstruction with In-Context Learning
- Title(参考訳): EgoHandICL: 文脈学習によるエゴセントリックな3Dハンドコンストラクション
- Authors: Binzhu Xie, Shi Qiu, Sicheng Zhang, Yinqiao Wang, Hao Xu, Muzammal Naseer, Chi-Wing Fu, Pheng-Ann Heng,
- Abstract要約: EgoHandICLは3Dハンド再構築のための最初のコンテキスト内学習フレームワークである。
EgoHandICLは、困難なエゴセントリックな条件下で、セマンティックアライメント、視覚的一貫性、堅牢性を改善する。
ARCTICとEgoExo4Dの実験では、最先端の手法よりも一貫した利得を示している。
- 参考スコア(独自算出の注目度): 96.36520341018267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust 3D hand reconstruction in egocentric vision is challenging due to depth ambiguity, self-occlusion, and complex hand-object interactions. Prior methods mitigate these issues by scaling training data or adding auxiliary cues, but they often struggle in unseen contexts. We present EgoHandICL, the first in-context learning (ICL) framework for 3D hand reconstruction that improves semantic alignment, visual consistency, and robustness under challenging egocentric conditions. EgoHandICL introduces complementary exemplar retrieval guided by vision-language models (VLMs), an ICL-tailored tokenizer for multimodal context, and a masked autoencoder (MAE)-based architecture trained with hand-guided geometric and perceptual objectives. Experiments on ARCTIC and EgoExo4D show consistent gains over state-of-the-art methods. We also demonstrate real-world generalization and improve EgoVLM hand-object interaction reasoning by using reconstructed hands as visual prompts. Code and data: https://github.com/Nicous20/EgoHandICL
- Abstract(参考訳): 自我中心視におけるロバストな3次元手指再建は、深度あいまいさ、自己閉塞性、複雑な手指物体の相互作用により困難である。
事前の方法は、トレーニングデータのスケーリングや補助的なキューの追加によってこれらの問題を緩和するが、しばしば目に見えない状況で苦労する。
EgoHandICLは,エゴセントリックな環境下でのセマンティックアライメント,視覚的一貫性,ロバスト性を改善する3Dハンド再構成のための,最初のインコンテキスト学習(ICL)フレームワークである。
EgoHandICLは、視覚言語モデル(VLM)によってガイドされる補完的な例検索、マルチモーダルコンテキストのためのICL調整トークンー、手書きの幾何学的および知覚的目的によって訓練されたマスク付きオートエンコーダ(MAE)ベースのアーキテクチャを導入している。
ARCTICとEgoExo4Dの実験では、最先端の手法よりも一貫した利得を示している。
また、実世界の一般化を実証し、再建した手を使って視覚的プロンプトとしてEgoVLMの手・物体間相互作用推論を改善する。
コードとデータ:https://github.com/Nicous20/EgoHandICL
関連論文リスト
- Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention [58.05340906967343]
Egocentric Referring Video Object (Ego-RVOS)は、言語クエリで説明されているように、人間のアクションに積極的に関与する特定のオブジェクトを、一人称ビデオに分割することを目的としている。
既存の手法はしばしば苦労し、データセット内の歪んだオブジェクト-アクションのペアリングから急激な相関を学習する。
本稿では,強力なトレーニング済みRVOSをエゴセントリックドメインに適応させるプラグイン因果フレームワークであるCausal-Referring(CERES)を紹介する。
論文 参考訳(メタデータ) (2025-12-30T16:22:14Z) - EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations [4.252119151012245]
EgoWorld(エゴワールド)は、エゴセントリックな視点を、豊富なエゴセントリックな視点から再構築する新しいフレームワークである。
提案手法は,推定された遠心深度マップから点雲を再構成し,それをエゴセントリックな視点に再投影し,拡散に基づくインペインティングを適用して,密集した意味的コヒーレントなエゴセントリックな画像を生成する。
EgoWorldは最先端のパフォーマンスを実現し、新しいオブジェクト、アクション、シーン、主題への堅牢な一般化を実証している。
論文 参考訳(メタデータ) (2025-06-22T04:21:48Z) - Egocentric Human-Object Interaction Detection: A New Benchmark and Method [15.271558280695631]
エゴセントリック・ヒューマン・オブジェクト・インタラクション(Egocentric Human-ject Interaction, Ego-HOI)の検出は、知的エージェントが人間の活動を理解し、支援する上で重要である。
実世界のEgo-HOI検出タスクとEgo-HOIBenchを紹介した。
ハンドポーズと幾何学的手がかりを利用して対話表現を強化する軽量なプラグアンドプレイ方式であるハンドジオメトリとインターアクティブリファインメント(HGIR)を提案する。
論文 参考訳(メタデータ) (2025-06-17T05:03:42Z) - MEgoHand: Multimodal Egocentric Hand-Object Interaction Motion Generation [28.75149480374178]
MEgoHandは、エゴセントリックなRGB、テキスト、初期手ポーズから物理的にプラウジブルなハンドオブジェクトインタラクションを合成するフレームワークである。
手首の翻訳誤差と関節回転誤差の大幅な低減を実現し、手首の微細な関節構造を正確にモデル化する能力を強調している。
論文 参考訳(メタデータ) (2025-05-22T12:37:47Z) - Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - Joint Hand-object 3D Reconstruction from a Single Image with
Cross-branch Feature Fusion [78.98074380040838]
特徴空間において手とオブジェクトを共同で検討し、2つの枝の相互性について検討する。
入力されたRGB画像に推定深度マップを付加するために補助深度推定モジュールを用いる。
提案手法は,オブジェクトの復元精度において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-28T09:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。