論文の概要: DeepPatent2: A Large-Scale Benchmarking Corpus for Technical Drawing
Understanding
- arxiv url: http://arxiv.org/abs/2311.04098v1
- Date: Tue, 7 Nov 2023 16:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 14:44:04.252411
- Title: DeepPatent2: A Large-Scale Benchmarking Corpus for Technical Drawing
Understanding
- Title(参考訳): DeepPatent2: テクニカル描画理解のための大規模ベンチマークコーパス
- Authors: Kehinde Ajayi, Xin Wei, Martin Gryder, Winston Shields, Jian Wu, Shawn
M. Jones, Michal Kucer, Diane Oyen
- Abstract要約: DeepPatent2は、14年間の米国設計特許文書から抽出された132,890のオブジェクト名と22,394の視点を持つ270万以上の技術図面を提供する大規模なデータセットである。
概念キャプションを用いたDeepPatent2の有用性を実証し,3次元画像再構成や画像検索などの他の研究領域を容易にするためのデータセットの有用性を示す。
- 参考スコア(独自算出の注目度): 15.301367869302489
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in computer vision (CV) and natural language processing have
been driven by exploiting big data on practical applications. However, these
research fields are still limited by the sheer volume, versatility, and
diversity of the available datasets. CV tasks, such as image captioning, which
has primarily been carried out on natural images, still struggle to produce
accurate and meaningful captions on sketched images often included in
scientific and technical documents. The advancement of other tasks such as 3D
reconstruction from 2D images requires larger datasets with multiple
viewpoints. We introduce DeepPatent2, a large-scale dataset, providing more
than 2.7 million technical drawings with 132,890 object names and 22,394
viewpoints extracted from 14 years of US design patent documents. We
demonstrate the usefulness of DeepPatent2 with conceptual captioning. We
further provide the potential usefulness of our dataset to facilitate other
research areas such as 3D image reconstruction and image retrieval.
- Abstract(参考訳): 近年のコンピュータビジョン(CV)と自然言語処理の進歩は,実践的応用におけるビッグデータの利用によって加速されている。
しかし、これらの研究分野は、利用可能なデータセットの量、汎用性、多様性によって制限されている。
自然画像で主に行われている画像キャプションなどのcvタスクは、科学的・技術的文書にしばしば含まれるスケッチ画像に正確で意味のあるキャプションを作成するのに苦戦している。
2次元画像からの3次元再構成などのタスクは、複数の視点でより大きなデータセットを必要とする。
大規模なデータセットであるDeepPatent2を導入し、14年間の米国設計特許文書から抽出された132,890のオブジェクト名と22,394の視点で270万以上の技術図面を提供する。
概念キャプションを用いたDeepPatent2の有用性を示す。
さらに,3次元画像再構成や画像検索などの他の研究分野を促進するために,データセットの有用性も示唆する。
関連論文リスト
- LookupForensics: A Large-Scale Multi-Task Dataset for Multi-Phase Image-Based Fact Verification [15.616232457341097]
これは、ジャーナリストが使用するテキストベースの事実チェックシステムに由来する名前です。
我々は,手作りの画像編集や機械学習による操作を多用した,この新しいタスクに適した大規模なデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-26T09:15:29Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - BIMCV-R: A Landmark Dataset for 3D CT Text-Image Retrieval [44.92177279141073]
我々は,200万枚以上のスライスを含む8,069個の3次元CTボリュームのデータセットを,それぞれの放射線学的報告と組み合わせて提示する。
次に、大規模な言語モデルの可能性を活用した検索戦略であるMedFinderを構築します。
これは、テキスト・トゥ・イメージ、画像・トゥ・テキスト、キーワードベースの検索タスクを容易に行えるシステムを開発するための予備的なステップである。
論文 参考訳(メタデータ) (2024-03-24T03:10:07Z) - NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文 参考訳(メタデータ) (2023-08-23T14:25:22Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - SynDrone -- Multi-modal UAV Dataset for Urban Scenarios [11.338399194998933]
ピクセルレベルのアノテーションを持つ大規模な実際のデータセットの不足は、研究者にとって大きな課題となっている。
本研究では,複数の飛行高度で撮影された画像と3次元データを含むマルチモーダル合成データセットを提案する。
データセットは、UAVアプリケーションをターゲットにした新しいコンピュータビジョンメソッドの開発をサポートするために公開されます。
論文 参考訳(メタデータ) (2023-08-21T06:22:10Z) - Multi-sensor large-scale dataset for multi-view 3D reconstruction [63.59401680137808]
マルチビュー3次元表面再構成のための新しいマルチセンサデータセットを提案する。
スマートフォン、Intel RealSense、Microsoft Kinect、産業用カメラ、構造化光スキャナーなどだ。
14の照明条件下で100方向から取得した107の異なるシーンの約1.4万枚の画像を提供する。
論文 参考訳(メタデータ) (2022-03-11T17:32:27Z) - 3D Object Detection from Images for Autonomous Driving: A Survey [68.33502122185813]
画像から3Dオブジェクトを検出することは、自動運転の基本的かつ困難な問題の一つだ。
この問題を2015年から2021年にかけて200以上の研究が行われ、理論、アルゴリズム、応用の幅広い範囲で研究されている。
我々は,この新奇で継続的な研究分野を包括的に調査し,画像に基づく3D検出に最もよく使用されるパイプラインを要約する。
論文 参考訳(メタデータ) (2022-02-07T07:12:24Z) - WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual
Machine Learning [19.203716881791312]
ウィキペディアベースの画像テキスト(WIT)データセットを紹介する。
witは3760万のエンティティリッチな画像テキスト例のキュレーションセットで構成されており、108のwikipedia言語で1150万のユニークな画像がある。
WITは3倍の画像-テキストサンプル数で最大のマルチモーダルデータセットです。
論文 参考訳(メタデータ) (2021-03-02T18:13:54Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。