論文の概要: Exploiting Multimodal Synthetic Data for Egocentric Human-Object
Interaction Detection in an Industrial Scenario
- arxiv url: http://arxiv.org/abs/2306.12152v1
- Date: Wed, 21 Jun 2023 09:56:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 13:59:22.933493
- Title: Exploiting Multimodal Synthetic Data for Egocentric Human-Object
Interaction Detection in an Industrial Scenario
- Title(参考訳): 産業シナリオにおける人間-物体相互作用検出のためのマルチモーダル合成データの爆発的抽出
- Authors: Rosario Leonardi, Francesco Ragusa, Antonino Furnari, Giovanni Maria
Farinella
- Abstract要約: EgoISM-HOIは,手や物体のアノテーションが豊富な産業環境下で合成されたEHOI画像からなる,新しいマルチモーダルデータセットである。
本研究は,提案手法を事前学習するために合成データを活用することにより,実世界のデータでテストした場合の性能が著しく向上することを示す。
この分野での研究を支援するため、私たちはデータセット、ソースコード、事前トレーニングされたモデルをhttps://iplab.dmi.unict.it/egoism-hoi.comで公開しています。
- 参考スコア(独自算出の注目度): 20.99718135562034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we tackle the problem of Egocentric Human-Object Interaction
(EHOI) detection in an industrial setting. To overcome the lack of public
datasets in this context, we propose a pipeline and a tool for generating
synthetic images of EHOIs paired with several annotations and data signals
(e.g., depth maps or instance segmentation masks). Using the proposed pipeline,
we present EgoISM-HOI a new multimodal dataset composed of synthetic EHOI
images in an industrial environment with rich annotations of hands and objects.
To demonstrate the utility and effectiveness of synthetic EHOI data produced by
the proposed tool, we designed a new method that predicts and combines
different multimodal signals to detect EHOIs in RGB images. Our study shows
that exploiting synthetic data to pre-train the proposed method significantly
improves performance when tested on real-world data. Moreover, the proposed
approach outperforms state-of-the-art class-agnostic methods. To support
research in this field, we publicly release the datasets, source code, and
pre-trained models at https://iplab.dmi.unict.it/egoism-hoi.
- Abstract(参考訳): 本稿では,産業環境でのエゴセントリック・ヒューマン・オブジェクト・インタラクション(EHOI)検出の問題に取り組む。
この文脈における公開データセットの欠如を克服するために,いくつかのアノテーションとデータ信号(深度マップやインスタンスセグメンテーションマスクなど)を組み合わせるehoisの合成画像を生成するパイプラインとツールを提案する。
提案するパイプラインを用いて,手やオブジェクトのアノテーションが豊富な産業環境において,EgoISM-HOIの合成EHOI画像からなる新しいマルチモーダルデータセットを提案する。
提案ツールにより生成された合成EHOIデータの有用性と有効性を示すため,RGB画像中のEHOIを検出するために,異なるマルチモーダル信号の予測と組み合わせを行う新しい手法を考案した。
本研究は,提案手法を事前学習するために合成データを利用すると,実世界のデータでテストした場合の性能が大幅に向上することを示す。
さらに,提案手法は最先端のクラスに依存しない手法よりも優れている。
この分野の研究を支援するために、我々はデータセット、ソースコード、事前トレーニングされたモデルをhttps://iplab.dmi.unict.it/egoism-hoiで公開します。
関連論文リスト
- SynthSet: Generative Diffusion Model for Semantic Segmentation in Precision Agriculture [0.09999629695552192]
本研究では,人間の介入なしに現実的な農業データを合成するための二重拡散モデルアーキテクチャを提案する。
合成画像の表現特性とそれに対応する生成マスクとのコヒーレンスを高めるために超解像を用いる。
その結果,セマンティックセグメンテーションタスクにおけるデータ不足に対処する手法の有効性が示された。
論文 参考訳(メタデータ) (2024-11-05T20:42:23Z) - MDM: Advancing Multi-Domain Distribution Matching for Automatic Modulation Recognition Dataset Synthesis [35.07663680944459]
ディープラーニング技術は、AMR(Automatic Modulation Recognition)タスクにうまく導入されている。
ディープラーニングの成功はすべて、大規模なデータセットのトレーニングによるものだ。
大量のデータの問題を解決するため、一部の研究者はデータ蒸留法を提唱した。
論文 参考訳(メタデータ) (2024-08-05T14:16:54Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Are Synthetic Data Useful for Egocentric Hand-Object Interaction Detection? [12.987587227876565]
本研究では,エゴセントリックな手・物体間相互作用検出における合成データの有効性について検討した。
実際のラベル付きデータの10%しか利用できないため、実際のデータにのみ訓練されたベースラインと比較して、全体的なAPの改善を実現しています。
論文 参考訳(メタデータ) (2023-12-05T11:29:00Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - VALERIE22 -- A photorealistic, richly metadata annotated dataset of
urban environments [5.439020425819001]
VALERIEツールパイプラインは、ドメイン固有の要素の理解に寄与するために開発された合成データジェネレータである。
VALERIE22データセットは、フォトリアリスティックセンサーシミュレーションを提供するVALERIEプロシージャツールパイプラインで生成された。
データセットは独自のリッチなメタデータセットを提供し、特定のシーンとセマンティックな特徴の抽出を可能にする。
論文 参考訳(メタデータ) (2023-08-18T15:44:45Z) - Semantic Segmentation of Vegetation in Remote Sensing Imagery Using Deep
Learning [77.34726150561087]
本稿では,公開されているリモートセンシングデータからなるマルチモーダル・大規模時間データセットを作成するためのアプローチを提案する。
我々は、異なる種類の植生を分離できる畳み込みニューラルネットワーク(CNN)モデルを使用する。
論文 参考訳(メタデータ) (2022-09-28T18:51:59Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Egocentric Human-Object Interaction Detection Exploiting Synthetic Data [19.220651860718892]
産業的文脈において,エゴセントリックなヒューマンオブジェクトインタラクション(EHOI)を検出することの問題点を考察する。
EHOI検出に自動的にラベル付けされたFPV画像を生成するためのパイプラインとツールを提案する。
論文 参考訳(メタデータ) (2022-04-14T15:59:15Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Learning to Segment Human Body Parts with Synthetically Trained Deep
Convolutional Networks [58.0240970093372]
本稿では,合成データのみを用いて学習した深部畳み込みニューラルネットワークに基づく人体部分分割のための新しい枠組みを提案する。
提案手法は,人体部品の実際の注釈付きデータを用いてモデルを訓練することなく,最先端の結果が得られる。
論文 参考訳(メタデータ) (2021-02-02T12:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。