論文の概要: Blind Users Accessing Their Training Images in Teachable Object
Recognizers
- arxiv url: http://arxiv.org/abs/2208.07968v1
- Date: Tue, 16 Aug 2022 21:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 13:15:08.849794
- Title: Blind Users Accessing Their Training Images in Teachable Object
Recognizers
- Title(参考訳): 学習用物体認識装置で学習画像にアクセスするブラインドユーザ
- Authors: Jonggi Hong, Jaina Gandhi, Ernest Essuah Mensah, Ebrima H Jarjue,
Kyungjun Lee, Hernisa Kacorri
- Abstract要約: MyCamは、ユーザーのトレーニングセット内の写真への非視覚的アクセスのために、自動的に推定されたディスクリプタを組み込んだモバイルアプリである。
我々は、リアルタイム写真レベルの記述子により、視覚障害者が被写体で写真を減らすことができ、参加者がトレーニングセットの質を反復してアクセスすることで、より多くのバリエーションを付加できることを実証した。
- 参考スコア(独自算出の注目度): 12.833745050235047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Iteration of training and evaluating a machine learning model is an important
process to improve its performance. However, while teachable interfaces enable
blind users to train and test an object recognizer with photos taken in their
distinctive environment, accessibility of training iteration and evaluation
steps has received little attention. Iteration assumes visual inspection of the
training photos, which is inaccessible for blind users. We explore this
challenge through MyCam, a mobile app that incorporates automatically estimated
descriptors for non-visual access to the photos in the users' training sets. We
explore how blind participants (N=12) interact with MyCam and the descriptors
through an evaluation study in their homes. We demonstrate that the real-time
photo-level descriptors enabled blind users to reduce photos with cropped
objects, and that participants could add more variations by iterating through
and accessing the quality of their training sets. Also, Participants found the
app simple to use indicating that they could effectively train it and that the
descriptors were useful. However, subjective responses were not reflected in
the performance of their models, partially due to little variation in training
and cluttered backgrounds.
- Abstract(参考訳): 機械学習モデルのトレーニングと評価の反復は、そのパフォーマンスを改善するための重要なプロセスである。
しかし,授業可能なインタフェースにより,視覚障害者が独自の環境下で撮影した写真でオブジェクト認識器を訓練・テストできる一方で,訓練の繰り返しや評価手順のアクセシビリティはほとんど注目されていない。
イテレーションでは、ブラインドユーザにとってアクセス不能なトレーニング写真の視覚検査が想定される。
この課題を、ユーザトレーニングセット内の写真への非視覚的アクセスのために、自動的に推定された記述子を組み込んだモバイルアプリであるMyCamを通じて調査する。
視覚障害者(N=12)がMyCamやディスクリプタとどのように相互作用するかを,自宅での評価研究を通じて検討した。
実時間写真レベルの記述子によって、目隠しされたオブジェクトによる写真の削減が可能となり、参加者はトレーニングセットの質を反復してアクセスすることで、より多くのバリエーションを追加できることを示した。
また、参加者は、効果的にトレーニングでき、ディスクリプタが役に立つことを示すために、このアプリが簡単に使えることを発見した。
しかし、トレーニングや乱雑な背景のばらつきがほとんどないこともあり、主観的反応はモデルの性能に反映されなかった。
関連論文リスト
- Empowering Visually Impaired Individuals: A Novel Use of Apple Live
Photos and Android Motion Photos [3.66237529322911]
われわれは、Apple Live PhotosとAndroid Motion Photosの技術の使用を提唱している。
以上の結果から,Live PhotosとMotion Photosは,共通の視覚支援タスクにおいて,単フレーム画像よりも優れていた。
論文 参考訳(メタデータ) (2023-09-14T20:46:35Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - ImaginaryNet: Learning Object Detectors without Real Images and
Annotations [66.30908705345973]
本稿では,事前学習された言語モデルとテキスト・ツー・イメージモデルを組み合わせた画像合成フレームワークを提案する。
合成画像とクラスラベルを使用することで、弱い教師付きオブジェクト検出を利用してImaginary-Supervised Object Detectionを実現できる。
実験により、ImaginaryNetは、実際のデータに基づいてトレーニングされた同じバックボーンの弱い監督を受けたものと比較して、ISODで約70%の性能が得られることが示された。
論文 参考訳(メタデータ) (2022-10-13T10:25:22Z) - ASHA: Assistive Teleoperation via Human-in-the-Loop Reinforcement
Learning [91.58711082348293]
オンラインユーザからのフィードバックからシステムのパフォーマンスに関する強化学習は、この問題に対する自然な解決策である。
このアプローチでは、特にフィードバックが不足している場合には、ループ内の大量のトレーニングデータが必要になる傾向があります。
疎いユーザフィードバックから効率的に学習する階層型ソリューションを提案する。
論文 参考訳(メタデータ) (2022-02-05T02:01:19Z) - Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking [137.26381337333552]
本研究では,十分なトレーニングデータを合成できるCrop-Transform-Paste演算を開発した。
オブジェクトの状態はすべての合成データで知られているので、既存のディープトラッカーは人間のアノテーションなしで日常的に訓練することができる。
論文 参考訳(メタデータ) (2021-06-21T07:40:34Z) - Recognizing Actions in Videos from Unseen Viewpoints [80.6338404141284]
本研究では,現在の畳み込みニューラルネットワークモデルでは,トレーニングデータに存在しないカメラ視点からの動作を認識できないことを示す。
視認不能な認識のための新しいデータセットを導入し、視点不変表現を学習するアプローチ能力を示す。
論文 参考訳(メタデータ) (2021-03-30T17:17:54Z) - Embodied Visual Active Learning for Semantic Segmentation [33.02424587900808]
本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T11:02:34Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z) - Learning to Visually Navigate in Photorealistic Environments Without any
Supervision [37.22924101745505]
外部の監督や報酬を伴わずに画像入力から学習するための新しいアプローチを導入する。
我々のアプローチは3つの段階から構成される: 一人称視点の優れた表現を学習し、次に記憶を用いて探索することを学ぶ。
エージェントを訓練して、RGB入力のみでギブソンデータセットから挑戦的な写真リアリスティック環境をナビゲートすることで、このアプローチの利点を示す。
論文 参考訳(メタデータ) (2020-04-10T08:59:32Z) - Crowdsourcing the Perception of Machine Teaching [17.94519906313517]
教育可能なインターフェースは、エンドユーザが機械学習システムをその慣用的な特性と環境にチューニングすることを可能にする。
制御を容易にする一方で、その効果は専門知識や誤解の欠如によって妨げられる。
本研究では, Amazon Mechanical Turk にモバイル教育可能なテストベッドを配置することで, 機械教育におけるユーザの関与を概念化し, 経験し, 反映する方法について検討する。
論文 参考訳(メタデータ) (2020-02-05T03:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。