論文の概要: ScreenSeg: On-Device Screenshot Layout Analysis
- arxiv url: http://arxiv.org/abs/2104.08052v1
- Date: Fri, 16 Apr 2021 11:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:20:16.467488
- Title: ScreenSeg: On-Device Screenshot Layout Analysis
- Title(参考訳): screeneg: オンデバイススクリーンショットのレイアウト分析
- Authors: Manoj Goyal, Rachit S Munjal, Sukumar Moharana, Deepak Garg, Debi
Prasanna Mohanty, Siva Prasad Thota
- Abstract要約: スクリーンショットと文書画像の階層的レイアウト分析を行う,新しいエンドツーエンドソリューションを提案する。
当社のアプローチでは,スクリーンショットで発生するGrid, Image, Text, Iconブロックなどのエンティティをセグメント化しています。
平均精度は0.95で、Samsung Galaxy S10 Deviceでは1080pの解像度で約200msのレイテンシを実現しています。
- 参考スコア(独自算出の注目度): 1.0700114817489723
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a novel end-to-end solution that performs a Hierarchical Layout
Analysis of screenshots and document images on resource constrained devices
like mobilephones. Our approach segments entities like Grid, Image, Text and
Icon blocks occurring in a screenshot. We provide an option for smart editing
by auto highlighting these entities for saving or sharing. Further this
multi-level layout analysis of screenshots has many use cases including content
extraction, keyword-based image search, style transfer, etc. We have addressed
the limitations of known baseline approaches, supported a wide variety of
semantically complex screenshots, and developed an approach which is highly
optimized for on-device deployment. In addition, we present a novel weighted
NMS technique for filtering object proposals. We achieve an average precision
of about 0.95 with a latency of around 200ms on Samsung Galaxy S10 Device for a
screenshot of 1080p resolution. The solution pipeline is already commercialized
in Samsung Device applications i.e. Samsung Capture, Smart Crop, My Filter in
Camera Application, Bixby Touch.
- Abstract(参考訳): 携帯電話などのリソース制約されたデバイス上で,スクリーンショットや文書画像の階層的レイアウト解析を行う新しいエンドツーエンドソリューションを提案する。
当社のアプローチでは,スクリーンショットで発生するGrid, Image, Text, Iconブロックなどのエンティティをセグメント化しています。
保存や共有のためのエンティティを自動的にハイライトすることで、スマート編集のオプションを提供します。
さらに、このスクリーンショットのマルチレベルレイアウト分析には、コンテンツ抽出、キーワードベースの画像検索、スタイル転送など、多くのユースケースがある。
我々は、既知のベースラインアプローチの制限に対処し、さまざまなセマンティックな複雑なスクリーンショットをサポートし、デバイス上でのデプロイメントに高度に最適化されたアプローチを開発しました。
さらに,オブジェクト提案をフィルタリングするための新しい重み付きNMS手法を提案する。
平均精度は0.95で、Samsung Galaxy S10 Deviceでは1080pの解像度で約200msのレイテンシを実現しています。
ソリューションパイプラインはすでにSamsung Deviceアプリケーションで商用化されている。
Samsung Capture、スマートクロップ、カメラアプリケーションでの私のフィルター、Bixby Touch
関連論文リスト
- CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - Learning to Select Camera Views: Efficient Multiview Understanding at
Few Glances [59.34619548026885]
本稿では,対象物やシナリオを所定のビューから分析し,処理に最適なビューを選択するビュー選択手法を提案する。
提案手法は,MVSelectという強化学習に基づくカメラ選択モジュールを備えており,ビューの選択だけでなく,タスクネットワークとの協調トレーニングも容易である。
論文 参考訳(メタデータ) (2023-03-10T18:59:10Z) - Efficient Image Captioning for Edge Devices [8.724184244203892]
リソース制限されたデバイスのための軽量画像キャプタであるLightCapを提案する。
コア設計は、画像キャプションを効率的にするための最近のCLIPモデルに基づいている。
慎重に設計されたアーキテクチャでは、モデルのサイズを75%以上、FLOPを98%以上削減するパラメータが40万以上しか含まれていない。
論文 参考訳(メタデータ) (2022-12-18T01:56:33Z) - ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots [8.176933082548093]
質問応答による画面コンテンツ理解のための新しいベンチマークとデータセットScreenQAを提案する。
この作業は、フル文とショートフォームの両方を含む、さまざまなアプリケーションシナリオに対してアノテートする最初のものでもある。
論文 参考訳(メタデータ) (2022-09-16T23:49:00Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - FOVEA: Foveated Image Magnification for Autonomous Navigation [53.69803081925454]
入力キャンバスを小さく保ちながら、ある領域を弾性的に拡大する注意的アプローチを提案する。
提案手法は,高速R-CNNより高速かつ微調整の少ない検出APを高速化する。
Argoverse-HD と BDD100K の自律走行データセットでは,提案手法が標準の高速 R-CNN を超越した検出APを微調整なしで促進することを示す。
論文 参考訳(メタデータ) (2021-08-27T03:07:55Z) - An Automatic Image Content Retrieval Method for better Mobile Device
Display User Experiences [91.3755431537592]
モバイル端末向け画像コンテンツ検索と分類のための新しいモバイルアプリケーションを提案する。
このアプリケーションは何千もの写真で実行され、モバイルディスプレイでより良いユーザー視覚体験を実現するための励ましの成果を見せた。
論文 参考訳(メタデータ) (2021-08-26T23:44:34Z) - Multi-Source Fusion and Automatic Predictor Selection for Zero-Shot
Video Object Segmentation [86.94578023985677]
ゼロショットビデオオブジェクトセグメンテーションのための新しいマルチソースフュージョンネットワークを提案する。
提案手法は,最先端技術に対する魅力的な性能を実現する。
論文 参考訳(メタデータ) (2021-08-11T07:37:44Z) - Multimodal Icon Annotation For Mobile Applications [11.342641993269693]
本稿では、画素とビュー階層の利点を組み合わせた、新しいディープラーニングに基づくマルチモーダルアプローチを提案する。
リコで最もよく使われている29個のアイコンを手動でアノテートすることで、提供されたユーティリティを示すために、高品質なUIデータセットを作成します。
論文 参考訳(メタデータ) (2021-07-09T13:57:37Z) - MVStylizer: An Efficient Edge-Assisted Video Photorealistic Style
Transfer System for Mobile Phones [39.94170753983804]
携帯電話用エッジアシスト型ビデオ転送システムであるMVStylizerを提案する。
MVStylizerは、最先端の方法に比べて、より優れた視覚的品質でスタイリングされたビデオを生成することができる。
論文 参考訳(メタデータ) (2020-05-24T00:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。