論文の概要: Image Amodal Completion: A Survey
- arxiv url: http://arxiv.org/abs/2207.02062v1
- Date: Tue, 5 Jul 2022 14:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 13:53:32.656016
- Title: Image Amodal Completion: A Survey
- Title(参考訳): イメージ・アモーダル・コンプリート:調査
- Authors: Jiayang Ao, Krista A. Ehinger, and Qiuhong Ke
- Abstract要約: 画像のアモーダル補完は、コンピュータに人間のようなアモーダル補完機能を持たせることで、部分的に隠されているにもかかわらず、無傷な物体を理解することを目的としている。
本調査は,画像アモーダルコンプリート分野におけるホットスポット,キー技術,今後の動向について,直感的に理解することを目的としている。
- 参考スコア(独自算出の注目度): 8.743471209942712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing computer vision systems can compete with humans in understanding the
visible parts of objects, but still fall far short of humans when it comes to
depicting the invisible parts of partially occluded objects. Image amodal
completion aims to equip computers with human-like amodal completion functions
to understand an intact object despite it being partially occluded. The main
purpose of this survey is to provide an intuitive understanding of the research
hotspots, key technologies and future trends in the field of image amodal
completion. Firstly, we present a comprehensive review of the latest literature
in this emerging field, exploring three key tasks in image amodal completion,
including amodal shape completion, amodal appearance completion, and order
perception. Then we examine popular datasets related to image amodal completion
along with their common data collection methods and evaluation metrics.
Finally, we discuss real-world applications and future research directions for
image amodal completion, facilitating the reader's understanding of the
challenges of existing technologies and upcoming research trends.
- Abstract(参考訳): 既存のコンピュータビジョンシステムは、物体の見えない部分を理解するために人間と競合するが、部分的に隠された物体の見えない部分を描くという点では、まだ人間には及ばない。
画像のアモーダル補完は、コンピュータに人間のようなアモーダル補完機能を持たせることを目的としている。
本調査の目的は,研究ホットスポット,主要技術,画像アモーダル補完の分野における今後のトレンドを直感的に理解することである。
まず,本分野の最新文献の包括的レビューを行い,アモーダル形状完成,アモーダル外観完成,秩序知覚の3つの課題について考察する。
次に,画像アモーダル補完に関連する一般的なデータセットと,それらの共通データ収集手法と評価指標について検討する。
最後に,既存の技術の課題と今後の研究動向に対する読者の理解を促進するために,実世界の応用とイメージ・アモーダル・コンプリートに向けた今後の研究方向性について論じる。
関連論文リスト
- Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - Few-Shot Object Detection: Research Advances and Challenges [15.916463121997843]
Few-shot Object Detection (FSOD)は、少数の学習技術とオブジェクト検出技術を組み合わせて、注釈付きサンプルに制限のある新しいオブジェクトに迅速に適応する。
本稿では,近年のFSOD分野の進歩を概観する包括的調査を行う。
論文 参考訳(メタデータ) (2024-04-07T03:37:29Z) - A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。
既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文 参考訳(メタデータ) (2024-03-12T10:04:08Z) - Image-Based Virtual Try-On: A Survey [38.6177665201224]
画像ベースの仮想試着は、自然に着飾った人物画像を衣服のイメージで合成することを目的としており、オンラインショッピングに革命をもたらし、画像生成に関連トピックを刺激する。
本稿では,パイプラインアーキテクチャ,人物表現,トライオン表示,衣料品のワープ,トライオンステージといった重要なモジュールの側面において,最先端技術と方法論を包括的に分析する。
さらに、CLIPを用いて試行結果のセマンティックアライメントを評価し、同じデータセット上で一様に実装された評価指標を用いて代表手法を評価する。
論文 参考訳(メタデータ) (2023-11-08T16:34:18Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - 3D Object Detection from Images for Autonomous Driving: A Survey [68.33502122185813]
画像から3Dオブジェクトを検出することは、自動運転の基本的かつ困難な問題の一つだ。
この問題を2015年から2021年にかけて200以上の研究が行われ、理論、アルゴリズム、応用の幅広い範囲で研究されている。
我々は,この新奇で継続的な研究分野を包括的に調査し,画像に基づく3D検出に最もよく使用されるパイプラインを要約する。
論文 参考訳(メタデータ) (2022-02-07T07:12:24Z) - Scene Graph Generation: A Comprehensive Survey [35.80909746226258]
シーングラフは、その強力な意味表現とシーン理解への応用から研究の焦点となっている。
SGG(Scene Graph Generation)とは、画像を自動的にセマンティックなシーングラフにマッピングするタスクである。
本稿では,異なる入力モダリティをカバーする138の代表的な作品についてレビューし,既存の画像ベースSGGの手法を体系的に要約する。
論文 参考訳(メタデータ) (2022-01-03T00:55:33Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep
Learning Perspective [69.44384540002358]
この問題に対処するための包括的で包括的な2D-to-3D視点を提供する。
2014年からの主流とマイルストーンのアプローチを統一フレームワークで分類しています。
また,ポーズ表現スタイル,ベンチマーク,評価指標,一般的なアプローチの定量的評価を要約した。
論文 参考訳(メタデータ) (2021-04-23T11:07:07Z) - Deep learning for scene recognition from visual data: a survey [2.580765958706854]
この研究は、視覚データから深層学習モデルを用いて、シーン認識における最先端の技術をレビューすることを目的としている。
シーン認識は依然としてコンピュータビジョンの新たな分野であり、単一の画像と動的な画像の観点から対処されてきた。
論文 参考訳(メタデータ) (2020-07-03T16:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。