Fugu-MT 論文翻訳(概要): Fine-Grained Egocentric Hand-Object Segmentation: Dataset, Model, and Applications

論文の概要: Fine-Grained Egocentric Hand-Object Segmentation: Dataset, Model, and Applications

arxiv url: http://arxiv.org/abs/2208.03826v1
Date: Sun, 7 Aug 2022 21:43:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-09 13:33:54.769903
Title: Fine-Grained Egocentric Hand-Object Segmentation: Dataset, Model, and Applications
Title（参考訳）: 細粒度エゴセントリック・オブジェクト・セグメンテーション:データセット,モデル,応用
Authors: Lingzhi Zhang, Shenghao Zhou, Simon Stent, Jianbo Shi
Abstract要約: 11,243枚のエゴセントリックな画像からなるラベル付きデータセットを,手とオブジェクトのピクセルごとのセグメンテーションラベルで提供する。私たちのデータセットは、ハンドオブジェクトの接触境界をラベル付けした最初のものです。我々の堅牢なハンドオブジェクトセグメンテーションモデルとデータセットは、下流の視覚アプリケーションを強化または有効化するための基本的なツールとして機能することを示します。
参考スコア（独自算出の注目度）: 20.571026014771828
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Egocentric videos offer fine-grained information for high-fidelity modeling of human behaviors. Hands and interacting objects are one crucial aspect of understanding a viewer's behaviors and intentions. We provide a labeled dataset consisting of 11,243 egocentric images with per-pixel segmentation labels of hands and objects being interacted with during a diverse array of daily activities. Our dataset is the first to label detailed hand-object contact boundaries. We introduce a context-aware compositional data augmentation technique to adapt to out-of-distribution YouTube egocentric video. We show that our robust hand-object segmentation model and dataset can serve as a foundational tool to boost or enable several downstream vision applications, including hand state classification, video activity recognition, 3D mesh reconstruction of hand-object interactions, and video inpainting of hand-object foregrounds in egocentric videos. Dataset and code are available at: https://github.com/owenzlz/EgoHOS
Abstract（参考訳）: エゴセントリックビデオは人間の行動の高忠実度モデリングのためのきめ細かい情報を提供する。手と相互作用するオブジェクトは、視聴者の行動や意図を理解する上で重要な側面である。 11,243枚のエゴセントリックな画像からなるラベル付きデータセットを,多種多様な日常活動において操作される手と物体の画素ごとのセグメンテーションラベルで提供する。私たちのデータセットは、ハンドオブジェクトの接触境界をラベル付けした最初のものです。本稿では,非配信型YouTubeエゴセントリックビデオに適応するためのコンテクスト対応合成データ拡張手法を提案する。提案手法は,手の状態分類,映像アクティビティ認識,手対象インタラクションの3次元メッシュ再構成,自己中心型ビデオにおける手対象前景の映像インペインティングなど,いくつかの下流ビジョンアプリケーションを強化・有効化する基礎的ツールとして機能することを示す。データセットとコードは、https://github.com/owenzlz/egohosで利用可能である。

関連論文リスト

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video [7.1221123957033905]
EgoDexは、これまでで最大かつ最も多様な人体操作のデータセットである。ビデオの撮影時間は829時間で、3Dの手と指の追跡データをペアリングして記録する。このデータセットは、194種類のテーブルトップタスクにおいて、日常的な家庭内オブジェクトとの多様な操作行動をカバーする。
論文参考訳（メタデータ） (2025-05-16T21:34:47Z)
Object-Shot Enhanced Grounding Network for Egocentric Video [60.97916755629796]
我々は,エゴセントリックビデオのためのオブジェクトショット拡張グラウンドネットワークOSGNetを提案する。具体的には,映像表現を豊かにするために,映像から対象情報を抽出する。我々は,エゴセントリックなビデオに固有の撮影動作を分析し,これらの特徴を活用して,装着者の注意情報を抽出する。
論文参考訳（メタデータ） (2025-05-07T09:20:12Z)
SIGHT: Single-Image Conditioned Generation of Hand Trajectories for Hand-Object Interaction [86.54738165527502]
本研究では,物体の1つの画像に対して,現実的かつ多様な3次元ハンドトラジェクトリを生成する新しいタスクを提案する。手動物体の相互作用の軌跡は、ロボット工学、具体化されたAI、拡張現実、および関連分野の応用に大きな恩恵をもたらす。
論文参考訳（メタデータ） (2025-03-28T20:53:20Z)
Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning [71.02843679746563]
エゴセントリックなビデオ理解では、手や物体の動きと相互作用は自然によって重要な役割を果たす。本研究では,細粒度ハンドオブジェクトのモデリングをビデオ表現学習プロセスに統合することを目的とする。 EgoVideoは,手の動き情報を微粒化するための,新しい軽量モーションアダプタを備えたモデルである。
論文参考訳（メタデータ） (2025-03-02T18:49:48Z)
ManiVideo: Generating Hand-Object Manipulation Video with Dexterous and Generalizable Grasping [37.40475678197331]
ManiVideoは、一貫した時間的コヒーレントな双方向手動操作ビデオを生成する方法である。 MLO構造をUNetに2つの形式で埋め込むことで、デキスタラスハンドオブジェクト操作の3次元一貫性を高めることができる。複数のデータセットを効果的に統合し、人中心手オブジェクト操作ビデオ生成などの下流タスクをサポートする革新的なトレーニング戦略を提案する。
論文参考訳（メタデータ） (2024-12-18T00:37:55Z)
Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。高品質な手動アノテーションを備えたUniversal Scene Description (USD)フォーマットで、専門家がキュレートしたデータセットを導入する。広範かつ高品質なアノテーションにより、このデータは総合的な3Dシーン理解モデルの基礎を提供する。
論文参考訳（メタデータ） (2024-12-02T11:33:55Z)
Dense Hand-Object(HO) GraspNet with Full Grasping Taxonomy and Dynamics [43.30868393851785]
HOGraspNetは、3Dハンドオブジェクトインタラクションのためのトレーニングデータセットである。データセットには、10歳から74歳の99人の被験者のさまざまな手形が含まれている。 3Dハンドとオブジェクトメッシュ,3Dキーポイント,コンタクトマップ,Emphgraspラベルのラベルを提供する。
論文参考訳（メタデータ） (2024-09-06T05:49:38Z)
CaRe-Ego: Contact-aware Relationship Modeling for Egocentric Interactive Hand-object Segmentation [14.765419467710812]
エゴセントリック・インタラクティブ・ハンドオブジェクト・セグメンテーション(EgoIHOS)は補助システムにおける人間の行動を理解する上で重要である。従来の手法では、視覚的特徴のみに基づいて、手とオブジェクトの相互作用を別個の意味圏として認識していた。本稿では,2つの側面から手と物体の接触を強調するCaRe-Egoを提案する。
論文参考訳（メタデータ） (2024-07-08T03:17:10Z)
HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文参考訳（メタデータ） (2023-11-30T10:50:35Z)
Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction Clips [38.02945794078731]
短いビデオクリップから手動物体のインタラクションを再構築する作業に取り組む。提案手法は,映像ごとの3D推論を最適化し,物体形状のニューラルな3D表現を復元する。我々は、エゴセントリックビデオに対する我々のアプローチを実証的に評価し、以前のシングルビュー法やマルチビュー法よりも大幅に改善されていることを観察した。
論文参考訳（メタデータ） (2023-09-11T17:58:30Z)
HANDAL: A Dataset of Real-World Manipulable Object Categories with Pose Annotations, Affordances, and Reconstructions [17.9178233068395]
本稿では,カテゴリレベルのオブジェクトポーズ推定とアベイランス予測のためのHANDALデータセットを提案する。このデータセットは、17のカテゴリで212の現実世界のオブジェクトの2.2kビデオから308kの注釈付き画像フレームで構成されている。 6-DoFカテゴリレベルのポーズ+スケール推定と関連するタスクに対するデータセットの有用性について概説する。
論文参考訳（メタデータ） (2023-08-02T23:59:59Z)
Learning Fine-grained View-Invariant Representations from Unpaired Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文参考訳（メタデータ） (2023-06-08T19:54:08Z)
SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。 OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2022-04-10T23:27:19Z)
Estimating 3D Motion and Forces of Human-Object Interactions from Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文参考訳（メタデータ） (2021-11-02T13:40:18Z)
H2O: Two Hands Manipulating Objects for First Person Interaction Recognition [70.46638409156772]
両手操作対象のマーカーレス3Dアノテーションを用いて,エゴセントリックな対話認識のための包括的なフレームワークを提案する。本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。
論文参考訳（メタデータ） (2021-04-22T17:10:42Z)
Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文参考訳（メタデータ） (2021-04-16T06:10:10Z)
The IKEA ASM Dataset: Understanding People Assembling Furniture through Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文参考訳（メタデータ） (2020-07-01T11:34:46Z)
A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文参考訳（メタデータ） (2020-04-18T15:34:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。