Fugu-MT 論文翻訳(概要): Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use

論文の概要: Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use

arxiv url: http://arxiv.org/abs/2403.02626v1
Date: Tue, 5 Mar 2024 03:34:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 16:19:11.281878
Title: Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use
Title（参考訳）: モデリングコラボレータ:LLMツールを用いた最小人力による主観的視覚分類の実現
Authors: Imad Eddine Toubal, Aditya Avinash, Neil Gordon Alldrin, Jan Dlabal, Wenlei Zhou, Enming Luo, Otilia Stretcu, Hao Xiong, Chun-Ta Lu, Howard Zhou, Ranjay Krishna, Ariel Fuxman, Tom Duerig
Abstract要約: 本稿では,人間のラベリングを自然言語操作に置き換えることで,手作業の軽減を図る新しいフレームワークを提案する。当社のフレームワークは,クラウドソースアノテーションの必要性を排除している。トレーニングされたモデルは、従来のアジャイルモデリングや最先端のゼロショット分類モデルよりも優れています。
参考スコア（独自算出の注目度）: 14.601182512709068
License: http://creativecommons.org/licenses/by/4.0/
Abstract: From content moderation to wildlife conservation, the number of applications that require models to recognize nuanced or subjective visual concepts is growing. Traditionally, developing classifiers for such concepts requires substantial manual effort measured in hours, days, or even months to identify and annotate data needed for training. Even with recently proposed Agile Modeling techniques, which enable rapid bootstrapping of image classifiers, users are still required to spend 30 minutes or more of monotonous, repetitive data labeling just to train a single classifier. Drawing on Fiske's Cognitive Miser theory, we propose a new framework that alleviates manual effort by replacing human labeling with natural language interactions, reducing the total effort required to define a concept by an order of magnitude: from labeling 2,000 images to only 100 plus some natural language interactions. Our framework leverages recent advances in foundation models, both large language models and vision-language models, to carve out the concept space through conversation and by automatically labeling training data points. Most importantly, our framework eliminates the need for crowd-sourced annotations. Moreover, our framework ultimately produces lightweight classification models that are deployable in cost-sensitive scenarios. Across 15 subjective concepts and across 2 public image classification datasets, our trained models outperform traditional Agile Modeling as well as state-of-the-art zero-shot classification models like ALIGN, CLIP, CuPL, and large visual question-answering models like PaLI-X.
Abstract（参考訳）: コンテンツモデレーションから野生生物保護まで、ニュアンスや主観的な視覚概念を認識するためにモデルを必要とするアプリケーションの数は増えている。伝統的に、このような概念のための分類器の開発には、トレーニングに必要なデータを識別し注釈付けするために、時間、日、あるいは数ヶ月単位で測定するかなりの手作業が必要になる。イメージ分類器の迅速なブートストラップを可能にするAgile Modelingテクニックが最近提案されているが、ユーザーは単一の分類器をトレーニングするためにのみ、単調で反復的なデータラベルに30分以上費やす必要がある。 FiskeのCognitive Miser理論に基づいて、人間のラベリングを自然言語の相互作用に置き換え、概念を桁違いに定義するのに要する労力を削減し、2000枚の画像をラベル付けすることから、わずか100枚以上の自然言語の相互作用まで、手作業による作業を軽減する新しいフレームワークを提案する。我々のフレームワークは、大規模言語モデルと視覚言語モデルの両方の基盤モデルの最近の進歩を活用し、会話や学習データポイントの自動ラベル付けによって概念空間を彫り出す。最も重要なことは、私たちのフレームワークがクラウドソースアノテーションを不要にすることです。さらに、当社のフレームワークは最終的に、コストに敏感なシナリオでデプロイ可能な軽量な分類モデルを生成します。 15の主観的概念と2つのパブリックイメージ分類データセットにまたがって、トレーニングされたモデルは、従来のアジャイルモデリング、ALIGN、CLIP、CuPLといった最先端のゼロショット分類モデル、PaLI-Xのような大規模な視覚的質問応答モデルよりも優れています。

関連論文リスト

Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文参考訳（メタデータ） (2025-07-30T20:06:01Z)
TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文参考訳（メタデータ） (2025-03-19T17:58:57Z)
Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文参考訳（メタデータ） (2024-08-22T15:10:20Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文参考訳（メタデータ） (2023-10-05T03:40:06Z)
POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文参考訳（メタデータ） (2023-04-29T22:05:22Z)
LiT Tuned Models for Efficient Species Detection [22.3395465641384]
本稿では,任意の微細な画像分類データセットを分散視覚言語事前学習に適用するための簡単な手法を提案する。 iNaturalist-2021データセットは、約270万のマクロ微生物の画像で構成されており、1万のクラスにまたがっている。我々のモデルは(ロック画像テキストチューニングと呼ばれる新しい手法を用いて訓練)、事前訓練された凍結された視覚表現を用いて、言語アライメントだけで強力な移動学習性能が得られることを証明している。
論文参考訳（メタデータ） (2023-02-12T20:36:55Z)
A Computational Acquisition Model for Multimodal Word Categorization [35.82822305925811]
本稿では, イメージ・キャプション・ペアから学習した, 認知に着想を得たマルチモーダル獲得モデルを提案する。本モデルでは,単語のカテゴリとオブジェクト認識能力について学習し,発達文献で報告されたような傾向を示す。
論文参考訳（メタデータ） (2022-05-12T09:28:55Z)
Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文参考訳（メタデータ） (2021-10-06T16:27:38Z)
Comprehensive and Efficient Data Labeling via Adaptive Model Scheduling [25.525371500391568]
画像検索プラットフォームやフォトアルバム管理アプリのような特定のアプリケーションでは、十分なラベルを得るためにモデルのコレクションを実行する必要があることが多い。本研究では,1) モデル間の意味関係をマイニングすることで,非自明なモデルの価値を予測するための強化学習に基づく手法と,2) モデル実行順序を期限付きあるいは期限依存の制約下で適応的にスケジューリングする2つのアルゴリズムからなる適応型モデルスケジューリングフレームワークを提案する。私たちの設計では、貴重なラベルを失うことなく、約53%の実行時間を節約できます。
論文参考訳（メタデータ） (2020-02-08T03:54:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。