論文の概要: Label Anything: An Interpretable, High-Fidelity and Prompt-Free Annotator
- arxiv url: http://arxiv.org/abs/2502.02972v1
- Date: Wed, 05 Feb 2025 08:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:23:57.544416
- Title: Label Anything: An Interpretable, High-Fidelity and Prompt-Free Annotator
- Title(参考訳): Label Anything: 解釈可能な高忠実でプロンプトフリーなアノテーション
- Authors: Wei-Bin Kou, Guangxu Zhu, Rongguang Ye, Shuai Wang, Ming Tang, Yik-Chung Wu,
- Abstract要約: 従来の手動ラベリングは、ロバストモデルをトレーニングするために大量のデータに注釈を付けるのに高コストである。
本稿では,解釈可能な高忠実度データアノテータとして機能するラベル随伴モデル (LAM) を提案する。
LAMは複数の実世界のデータセットに対して高忠実度アノテーション(ほぼ100%mIoU)を生成することができる。
- 参考スコア(独自算出の注目度): 29.2532061585323
- License:
- Abstract: Learning-based street scene semantic understanding in autonomous driving (AD) has advanced significantly recently, but the performance of the AD model is heavily dependent on the quantity and quality of the annotated training data. However, traditional manual labeling involves high cost to annotate the vast amount of required data for training robust model. To mitigate this cost of manual labeling, we propose a Label Anything Model (denoted as LAM), serving as an interpretable, high-fidelity, and prompt-free data annotator. Specifically, we firstly incorporate a pretrained Vision Transformer (ViT) to extract the latent features. On top of ViT, we propose a semantic class adapter (SCA) and an optimization-oriented unrolling algorithm (OptOU), both with a quite small number of trainable parameters. SCA is proposed to fuse ViT-extracted features to consolidate the basis of the subsequent automatic annotation. OptOU consists of multiple cascading layers and each layer contains an optimization formulation to align its output with the ground truth as closely as possible, though which OptOU acts as being interpretable rather than learning-based blackbox nature. In addition, training SCA and OptOU requires only a single pre-annotated RGB seed image, owing to their small volume of learnable parameters. Extensive experiments clearly demonstrate that the proposed LAM can generate high-fidelity annotations (almost 100% in mIoU) for multiple real-world datasets (i.e., Camvid, Cityscapes, and Apolloscapes) and CARLA simulation dataset.
- Abstract(参考訳): 自律運転(AD)における学習型ストリートシーンセマンティック理解は,最近著しく進歩しているが,ADモデルの性能は注釈付きトレーニングデータの量と品質に大きく依存している。
しかし、従来の手動ラベリングは、ロバストモデルのトレーニングに必要な大量のデータに注釈をつけるのに高コストである。
このような手動ラベリングのコストを軽減するため,解釈可能で高忠実なデータアノテータとして機能するラベルアプライシングモデル(LAM)を提案する。
具体的には、まず、トレーニング済みの視覚変換器(ViT)を組み込んで、潜伏した特徴を抽出する。
ViTの上には、非常に少数のトレーニング可能なパラメータを持つセマンティッククラスアダプタ(SCA)と最適化指向のアンローリングアルゴリズム(OptOU)が提案されている。
SCAは、ViT抽出された機能を融合して、その後の自動アノテーションの基礎を固めるために提案されている。
OptOUは複数のカスケード層で構成されており、各層は最適化された定式化を含んでいて、その出力を可能な限り基礎的な真実と整合させるが、OptOUは学習ベースのブラックボックスの性質よりも解釈可能である。
加えて、SCAとOpsOUのトレーニングには、学習可能なパラメータの少ないため、1つの事前アノテーション付きRGBシードイメージしか必要としない。
複数の実世界のデータセット(Camvid、Cityscapes、Apolloscapes)とCARLAシミュレーションデータセットに対して、提案したLAMが高忠実度アノテーション(ほぼ100%mIoU)を生成可能であることを明らかに示している。
関連論文リスト
- Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP [24.22470408549266]
Aggregate-and-Adapted Prompt Embedding (AAPE) としての即時埋め込み
AAPEは、視覚言語理解タスクを含む、さまざまな下流データ分散とタスクに一般化できることが示されている。
また、AAPEは非標準およびOOD例の処理に特に有用であることを示す。
論文 参考訳(メタデータ) (2024-10-31T07:41:13Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - A Good Foundation is Worth Many Labels: Label-Efficient Panoptic Segmentation [22.440065488051047]
ロボット知覚に学習ベースのモデルを広く応用する上での課題は、注釈付きトレーニングデータの必要量を大幅に削減することである。
視覚基礎モデルにより舗装された基礎を生かし、セマンティックセグメンテーションとオブジェクト境界検出のために2つの軽量ネットワークヘッドを訓練する。
PASTELはアノテーションが少なくてもラベル効率の良いセグメンテーションの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-29T12:23:29Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Annotator: A Generic Active Learning Baseline for LiDAR Semantic
Segmentation [40.803251337200656]
Annotatorは汎用的で効率的なアクティブラーニングベースラインである。
ボクセル中心のオンライン選択戦略は、各LiDARスキャン内の正当性と卓越したボクセルギルドを効率よく調査し、注釈付けするように調整されている。
アノテーションは多様な設定で優れており、特にアクティブラーニング(AL)、アクティブソースフリードメイン適応(ASFDA)、アクティブドメイン適応(ADA)に焦点を当てている。
論文 参考訳(メタデータ) (2023-10-31T09:04:39Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - A Benchmark Generative Probabilistic Model for Weak Supervised Learning [2.0257616108612373]
アノテーションの負担を軽減するために、弱監視学習アプローチが開発されている。
遅延変数モデル(PLVM)が4つのデータセット間で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-03-31T07:06:24Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [58.617025733655005]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - LESS: Label-Efficient Semantic Segmentation for LiDAR Point Clouds [62.49198183539889]
我々は,LiDAR点雲を用いた屋外シーンのためのラベル効率のよいセマンティックセマンティックセマンティクスパイプラインを提案する。
本手法は,半弱教師付き学習を用いて,効率的なラベリング手法を設計する。
提案手法は,100%ラベル付き完全教師付き手法と比較して,さらに競争力が高い。
論文 参考訳(メタデータ) (2022-10-14T19:13:36Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。