論文の概要: Agile Modeling: From Concept to Classifier in Minutes
- arxiv url: http://arxiv.org/abs/2302.12948v2
- Date: Fri, 12 May 2023 23:50:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 23:18:52.544819
- Title: Agile Modeling: From Concept to Classifier in Minutes
- Title(参考訳): アジャイルモデリング: 概念から分類までを数分で
- Authors: Otilia Stretcu, Edward Vendrow, Kenji Hata, Krishnamurthy Viswanathan,
Vittorio Ferrari, Sasan Tavakkol, Wenlei Zhou, Aditya Avinash, Enming Luo,
Neil Gordon Alldrin, MohammadHossein Bateni, Gabriel Berger, Andrew Bunner,
Chun-Ta Lu, Javier A Rey, Giulia DeSalvo, Ranjay Krishna, Ariel Fuxman
- Abstract要約: 主観的な視覚概念をコンピュータビジョンモデルに変換するプロセスです。
ユーザが30分以内で最小限の労力で分類器を作成できることを、ユーザスタディで示しています。
このユーザ主導のプロセスと,従来のクラウドソーシングのパラダイムを比較して,クラウドソーシングの概念がユーザの概念としばしば異なっていることを確認する。
- 参考スコア(独自算出の注目度): 35.03003329814567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of computer vision to nuanced subjective use cases is
growing. While crowdsourcing has served the vision community well for most
objective tasks (such as labeling a "zebra"), it now falters on tasks where
there is substantial subjectivity in the concept (such as identifying "gourmet
tuna"). However, empowering any user to develop a classifier for their concept
is technically difficult: users are neither machine learning experts, nor have
the patience to label thousands of examples. In reaction, we introduce the
problem of Agile Modeling: the process of turning any subjective visual concept
into a computer vision model through a real-time user-in-the-loop interactions.
We instantiate an Agile Modeling prototype for image classification and show
through a user study (N=14) that users can create classifiers with minimal
effort under 30 minutes. We compare this user driven process with the
traditional crowdsourcing paradigm and find that the crowd's notion often
differs from that of the user's, especially as the concepts become more
subjective. Finally, we scale our experiments with simulations of users
training classifiers for ImageNet21k categories to further demonstrate the
efficacy.
- Abstract(参考訳): コンピュータビジョンの微妙な主観的ユースケースへの応用が増加している。
クラウドソーシングは、視覚コミュニティのほとんどの目的のタスク(例えば「ゼブラ」のラベル付けなど)によく役立っているが、現在では、概念にかなりの主観性があるタスク(例えば「グルメ・マグロ」の識別)に固執している。
ユーザーは機械学習の専門家ではないし、何千もの例をラベル付けする忍耐力もない。
主観的な視覚概念を、リアルタイムのユーザ・イン・ザ・ループインタラクションを通じてコンピュータビジョンモデルに変換するプロセスです。
画像分類のためのアジャイルモデリングプロトタイプをインスタンス化し、ユーザスタディ(N=14)を通じて、30分以内の最小限の労力で分類器を作成できることを示す。
このユーザ主導のプロセスと従来のクラウドソーシングのパラダイムを比較し,特に概念がより主観的になるにつれて,クラウドソーシングの概念がユーザの概念としばしば異なることを発見した。
最後に,ImageNet21kカテゴリのユーザ学習分類器のシミュレーションを用いて実験をスケールし,有効性を示す。
関連論文リスト
- Restyling Unsupervised Concept Based Interpretable Networks with Generative Models [14.604305230535026]
本稿では,事前学習された生成モデルの潜在空間に概念特徴をマッピングすることに依存する新しい手法を提案する。
本手法の有効性を,解釈可能な予測ネットワークの精度,再現性,学習概念の忠実性,一貫性の観点から定量的に検証した。
論文 参考訳(メタデータ) (2024-07-01T14:39:41Z) - Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use [14.2527771630478]
本稿では,人間のラベリングを自然言語操作に置き換えることで,手作業の軽減を図る新しいフレームワークを提案する。
当社のフレームワークは,クラウドソースアノテーションの必要性を排除している。
トレーニングされたモデルは、従来のアジャイルモデリングや最先端のゼロショット分類モデルよりも優れています。
論文 参考訳(メタデータ) (2024-03-05T03:34:11Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis [20.316056261749946]
本稿では,明示的な知識グラフを取り入れたエンドツーエンドのビジョンと言語モデルを提案する。
また,暗黙的ネットワーク演算子を用いた対話型アウト・オブ・ディストリビューション・レイヤを導入する。
実際に,視覚的質問応答,視覚的推論,画像テキスト検索など,複数の視覚および言語下流タスクにモデルを適用した。
論文 参考訳(メタデータ) (2023-02-11T05:46:21Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z) - Exploiting Behavioral Consistence for Universal User Representation [11.290137806288191]
我々は普遍的ユーザ表現モデルの開発に注力する。
得られた普遍表現には豊富な情報が含まれることが予想される。
行動データを普遍表現にエンコードする自己監視型ユーザモデリングネットワーク(SUMN)を提案する。
論文 参考訳(メタデータ) (2020-12-11T06:10:14Z) - Interactive Weak Supervision: Learning Useful Heuristics for Data
Labeling [19.24454872492008]
弱監督は、基礎的な真理ラベルなしでラベル付きデータセットを作成するための有望な代替手段を提供する。
本稿では,対話型弱監督のための最初のフレームワークを開発し,その手法が反復を提案し,ユーザフィードバックから学習する。
私たちの実験は、非常に競争力のあるテストセット性能を達成するモデルのトレーニングに少数のフィードバックが必要であることを示しています。
論文 参考訳(メタデータ) (2020-12-11T00:10:38Z) - Quantifying Learnability and Describability of Visual Concepts Emerging
in Representation Learning [91.58529629419135]
我々は、ディープニューラルネットワークによって自動的に発見された視覚的なグルーピングを特徴付ける方法を検討する。
本稿では、任意の画像グループ化の解釈可能性の定量化に使用できる視覚的学習可能性と記述可能性という2つの概念を紹介する。
論文 参考訳(メタデータ) (2020-10-27T18:41:49Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。