Fugu-MT 論文翻訳(概要): Real Time Egocentric Object Segmentation: THU-READ Labeling and Benchmarking Results

論文の概要: Real Time Egocentric Object Segmentation: THU-READ Labeling and Benchmarking Results

arxiv url: http://arxiv.org/abs/2106.04957v1
Date: Wed, 9 Jun 2021 10:10:02 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-10 15:10:05.399060
Title: Real Time Egocentric Object Segmentation: THU-READ Labeling and Benchmarking Results
Title（参考訳）: リアルタイムエゴセントリックオブジェクトセグメンテーション: thu-readラベリングとベンチマーク結果
Authors: E. Gonzalez-Sosa, G. Robledo, D. Gonzalez-Morin, P. Perez-Garcia and A. Villegas
Abstract要約: エゴセントリックセグメンテーションは、MR(Mixed Reality)アプリケーションの可能性から、コンピュータビジョンコミュニティにおいて近年関心を集めている。 RGB-D THU-READデータセットから2124個の画像のサブセットのセマンティックワイズラベリングに寄与する。また,リアルタイムセマンティックセグメンテーションネットワークであるThundernetによるベンチマーク結果を報告する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Egocentric segmentation has attracted recent interest in the computer vision community due to their potential in Mixed Reality (MR) applications. While most previous works have been focused on segmenting egocentric human body parts (mainly hands), little attention has been given to egocentric objects. Due to the lack of datasets of pixel-wise annotations of egocentric objects, in this paper we contribute with a semantic-wise labeling of a subset of 2124 images from the RGB-D THU-READ Dataset. We also report benchmarking results using Thundernet, a real-time semantic segmentation network, that could allow future integration with end-to-end MR applications.
Abstract（参考訳）: エゴセントリックセグメンテーションは、mr(mixed reality)アプリケーションの可能性から、コンピュータビジョンコミュニティの近年の関心を集めている。以前の作品の多くは、自我中心の人体の部分(主に手)の分割に焦点が当てられていたが、自我中心の物体にはほとんど注意が払われていない。そこで本稿では,RGB-D THU-READデータセットから2124個の画像のサブセットを意味的にラベル付けする手法を提案する。また,リアルタイムセマンティックセグメンテーションネットワークであるThundernetによるベンチマーク結果を報告する。

関連論文リスト

Fine-grained Spatiotemporal Grounding on Egocentric Videos [13.319346673043286]
EgoMaskは、エゴセントリックビデオの微細時間グラウンド化のための最初のピクセルレベルのベンチマークである。 EgoMaskは、式やオブジェクトマスクを参照するアノテーションパイプラインによって構築されている。また、モデル開発を容易にする大規模なトレーニングデータセットであるEgoMask-Trainも作成しています。
論文参考訳（メタデータ） (2025-08-01T10:53:27Z)
Cross-Spectral Body Recognition with Side Information Embedding: Benchmarks on LLCM and Analyzing Range-Induced Occlusions on IJB-MDF [51.36007967653781]
ViT(Vision Transformers)は、顔や身体の認識を含む幅広い生体計測タスクにおいて、印象的なパフォーマンスを誇示している。本研究では、視認性(VIS)画像に事前訓練されたVTモデルを、クロススペクトル体認識の難しい問題に適用する。このアイデアに基づいて、我々はSide Information Embedding (SIE)を統合し、ドメインとカメラ情報のエンコーディングの影響を調べ、スペクトル間マッチングを強化する。驚くべきことに、我々の結果は、ドメイン情報を明示的に組み込むことなく、カメラ情報のみを符号化することで、LLCMデータセット上で最先端のパフォーマンスが得られることを示している。
論文参考訳（メタデータ） (2025-06-10T16:20:52Z)
EOC-Bench: Can MLLMs Identify, Recall, and Forecast Objects in an Egocentric World? [52.99661576320663]
マルチモーダル・大規模言語モデル(MLLM)は、自我中心の視覚応用において画期的な進歩を遂げた。 EOC-Benchは、動的自我中心のシナリオにおいて、オブジェクト中心の具体的認識を体系的に評価するために設計された革新的なベンチマークである。 EOC-Benchに基づく各種プロプライエタリ,オープンソース,オブジェクトレベルのMLLMの総合評価を行う。
論文参考訳（メタデータ） (2025-06-05T17:44:12Z)
Object-Shot Enhanced Grounding Network for Egocentric Video [60.97916755629796]
我々は,エゴセントリックビデオのためのオブジェクトショット拡張グラウンドネットワークOSGNetを提案する。具体的には,映像表現を豊かにするために,映像から対象情報を抽出する。我々は,エゴセントリックなビデオに固有の撮影動作を分析し,これらの特徴を活用して,装着者の注意情報を抽出する。
論文参考訳（メタデータ） (2025-05-07T09:20:12Z)
EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。 EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-14T12:21:26Z)
ObjectRelator: Enabling Cross-View Object Relation Understanding Across Ego-Centric and Exo-Centric Perspectives [109.11714588441511]
Ego-Exoオブジェクト対応タスクは,セグメンテーションを通じて,ego-Exoパースペクティブ間のオブジェクト関係を理解することを目的としている。最近提案されたセグメンテーション手法であるPSALMは、このタスクでデモされたゼロショット能力を例外として挙げている。我々は、マルチモーダルコンディションフュージョンとSSLベースのクロスビューオブジェクトアライメントという、2つの重要なモジュールを特徴とする新しいアプローチであるObjectRelatorを提案する。
論文参考訳（メタデータ） (2024-11-28T12:01:03Z)
Cognition Transferring and Decoupling for Text-supervised Egocentric Semantic Segmentation [17.35953923039954]
Egocentic Semantic (TESS)タスクは、画像レベルのラベルからテキストによって弱められたエゴセントリックなイメージにピクセルレベルのカテゴリを割り当てることを目的としている。本稿では、まず、画像とテキストを関連づけて、自我中心の着用者オブジェクトの関係を学習する認知伝達デカップリングネットワーク(CTDN)を提案する。
論文参考訳（メタデータ） (2024-10-02T08:58:34Z)
Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文参考訳（メタデータ） (2024-08-07T06:10:45Z)
Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文参考訳（メタデータ） (2024-06-03T07:58:40Z)
EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation [5.476136494434766]
意味的類似性行列から派生した固有ベイズを通して意味的および構造的手がかりを提供する手法であるEiCueを紹介する。オブジェクトレベルの表現を画像内および画像間の整合性で学習する。 COCO-Stuff、Cityscapes、Potsdam-3データセットの実験では、最先端のUSSの結果が示されている。
論文参考訳（メタデータ） (2024-03-03T11:24:16Z)
Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文参考訳（メタデータ） (2023-08-19T09:12:13Z)
Learning Fine-grained View-Invariant Representations from Unpaired Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文参考訳（メタデータ） (2023-06-08T19:54:08Z)
A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented, Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文参考訳（メタデータ） (2023-03-08T01:29:55Z)
EgoTracks: A Long-term Egocentric Visual Object Tracking Dataset [19.496721051685135]
身体追跡は多くの自我中心の視覚問題にとって重要な要素である。 EgoTracksは、長期的なエゴセントリックなビジュアルオブジェクトトラッキングのための新しいデータセットである。本稿では,STARKトラッカーの性能向上を図り,エゴセントリックデータの性能向上を図っている。
論文参考訳（メタデータ） (2023-01-09T09:10:35Z)
NeRF-SOS: Any-View Self-supervised Object Segmentation from Complex Real-World Scenes [80.59831861186227]
本論文では,複雑な現実世界のシーンに対して,NeRFを用いたオブジェクトセグメンテーションのための自己教師型学習の探索を行う。我々のフレームワークは、NeRF(NeRF with Self-supervised Object NeRF-SOS)と呼ばれ、NeRFモデルがコンパクトな幾何認識セグメンテーションクラスタを蒸留することを奨励している。他の2Dベースの自己教師付きベースラインを一貫して上回り、既存の教師付きマスクよりも細かなセマンティクスマスクを予測する。
論文参考訳（メタデータ） (2022-09-19T06:03:17Z)
Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文参考訳（メタデータ） (2021-04-16T06:10:10Z)
Enhanced Self-Perception in Mixed Reality: Egocentric Arm Segmentation and Database with Automatic Labelling [1.0149624140985476]
本研究は、拡張仮想性における自己認識を改善するために、自我中心の腕のセグメンテーションに焦点を当てる。 GTEA Gaze+, EDSH, EgoHands, Ego Youtube Hands, THU-Read, TEgO, FPAB, Ego Gesture などの実効自我中心のデータセットについて報告する。このタスクに対するEgoArmデータセットの適合性を確認し、元のネットワークに対して最大40%の改善を実現した。
論文参考訳（メタデータ） (2020-03-27T12:09:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。