Fugu-MT 論文翻訳(概要): Bounding Box Annotation with Visible Status

論文の概要: Bounding Box Annotation with Visible Status

arxiv url: http://arxiv.org/abs/2304.04901v1
Date: Tue, 11 Apr 2023 00:17:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-12 16:48:09.141789
Title: Bounding Box Annotation with Visible Status
Title（参考訳）: 可視性を持つバウンディングボックスアノテーション
Authors: Takuya Kiyokawa, Naoki Shirakura, Hiroki Katayama, Keita Tomochika, Jun Takamatsu
Abstract要約: 本研究では,モバイルアプリケーションを用いた自由視点画像キャプチャ手法を提案する。提案したアプリケーションでは、カメラを移動させることで、バウンディングボックスにアノテートされたマルチビューイメージデータセットを自動的に収集することができる。実験の結果,ガミフィケーションされたモバイルアプリケーションを用いて,集合の進行状況が明らかな場合,複数ビューオブジェクトの画像データセットを収集する動機付けが可能であることがわかった。
参考スコア（独自算出の注目度）: 6.69350212746025
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training deep-learning-based vision systems requires the manual annotation of a significant amount of data to optimize several parameters of the deep convolutional neural networks. Such manual annotation is highly time-consuming and labor-intensive. To reduce this burden, a previous study presented a fully automated annotation approach that does not require any manual intervention. The proposed method associates a visual marker with an object and captures it in the same image. However, because the previous method relied on moving the object within the capturing range using a fixed-point camera, the collected image dataset was limited in terms of capturing viewpoints. To overcome this limitation, this study presents a mobile application-based free-viewpoint image-capturing method. With the proposed application, users can collect multi-view image datasets automatically that are annotated with bounding boxes by moving the camera. However, capturing images through human involvement is laborious and monotonous. Therefore, we propose gamified application features to track the progress of the collection status. Our experiments demonstrated that using the gamified mobile application for bounding box annotation, with visible collection progress status, can motivate users to collect multi-view object image datasets with less mental workload and time pressure in an enjoyable manner, leading to increased engagement.
Abstract（参考訳）: ディープラーニングに基づく視覚システムのトレーニングには、深層畳み込みニューラルネットワークのパラメータを最適化するために、大量のデータの手動アノテーションが必要である。このような手動アノテーションは、非常に時間がかかり、労働集約的です。この負担を軽減するために、以前の研究では、手動の介入を必要としない完全に自動化されたアノテーションアプローチを提示した。提案手法は、視覚マーカーと物体を関連付け、同じ画像でそれをキャプチャする。しかし,前者は固定焦点カメラを用いて物体を撮影範囲内へ移動させることに頼っていたため,収集した画像データセットは撮影視点で制限された。この制限を克服するために,モバイルアプリケーションを用いた自由視点画像キャプチャ手法を提案する。提案したアプリケーションでは、カメラを移動させることで、バウンディングボックスにアノテートされたマルチビューイメージデータセットを自動的に収集することができる。しかし、人間の関与による画像の収集は残酷で単調である。そこで我々は,コレクション状態の進捗を追跡するためのゲーム化アプリケーション機能を提案する。実験では,ボックスアノテーションのガミファイドなモバイルアプリケーションを用いて,目に見えるコレクションの進捗状況から,視覚的作業量や時間的プレッシャーの少ない多視点オブジェクトイメージデータセットを収集する動機付けを行い,エンゲージメントが向上することを示した。

関連論文リスト

Feedback-driven object detection and iterative model improvement [2.3700911865675187]
本稿では,オブジェクト検出モデルの改良を目的としたプラットフォームの開発と評価について述べる。このプラットフォームでは、イメージのアップロードとアノテートに加えて、微調整されたオブジェクト検出モデルも可能だ。手動アノテーションと比較して,半自動で最大53%の時間短縮効果を示す。
論文参考訳（メタデータ） (2024-11-29T16:45:25Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
Labeling Indoor Scenes with Fusion of Out-of-the-Box Perception Models [4.157013247909771]
ボトムアップセグメンテーション(SAM)、オブジェクト検出(Detic)、セマンティックセグメンテーション(MaskFormer)の最先端モデルを活用することを提案する。室内環境におけるセマンティックセグメンテーションとオブジェクトインスタンス検出のための擬似ラベルを得るための,コスト効率の高いラベリング手法を開発することを目的とする。提案手法の有効性を,Active VisionデータセットとADE20Kデータセットに示す。
論文参考訳（メタデータ） (2023-11-17T21:58:26Z)
Accelerating exploration and representation learning with offline pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文参考訳（メタデータ） (2023-03-31T18:03:30Z)
Context-Matched Collage Generation for Underwater Invertebrate Detection [12.255951530970249]
明示的なコンテキストラベルを利用して、未使用のバックグラウンドサンプルと既存のアノテーション付きデータを組み合わせて、追加のトレーニングサンプルを合成するContext Matched Collagesを導入する。生成したコラージュ画像を元のトレーニングセットと組み合わせることで、DUSIA上の3つの異なる物体検出器を用いて性能を向上させることができる。
論文参考訳（メタデータ） (2022-11-15T20:08:16Z)
CoDo: Contrastive Learning with Downstream Background Invariance for Detection [10.608660802917214]
下流背景不変性(CoDo)を用いたコントラスト学習という,オブジェクトレベルの自己教師型学習手法を提案する。プリテキストタスクは、さまざまなバックグラウンド、特に下流データセットのインスタンス位置モデリングに集中するように変換される。 MSCOCOの実験では、共通のバックボーンを持つCoDoであるResNet50-FPNが、オブジェクト検出に強力な転送学習結果をもたらすことを示した。
論文参考訳（メタデータ） (2022-05-10T01:26:15Z)
Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking [137.26381337333552]
本研究では,十分なトレーニングデータを合成できるCrop-Transform-Paste演算を開発した。オブジェクトの状態はすべての合成データで知られているので、既存のディープトラッカーは人間のアノテーションなしで日常的に訓練することができる。
論文参考訳（メタデータ） (2021-06-21T07:40:34Z)
Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文参考訳（メタデータ） (2021-04-05T14:15:49Z)
Data Augmentation for Object Detection via Differentiable Neural Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文参考訳（メタデータ） (2021-03-04T06:31:06Z)
Embodied Visual Active Learning for Semantic Segmentation [33.02424587900808]
本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
論文参考訳（メタデータ） (2020-12-17T11:02:34Z)
From ImageNet to Image Classification: Contextualizing Progress on Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文参考訳（メタデータ） (2020-05-22T17:39:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。