論文の概要: Are Multimodal Large Language Models Good Annotators for Image Tagging?
- arxiv url: http://arxiv.org/abs/2602.20972v1
- Date: Tue, 24 Feb 2026 14:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.796788
- Title: Are Multimodal Large Language Models Good Annotators for Image Tagging?
- Title(参考訳): マルチモーダル大言語モデルは画像タグ付けに適したアノテーションか?
- Authors: Ming-Kun Xie, Jia-Hao Xiao, Zhiqiang Kou, Zhongnian Li, Gang Niu, Masashi Sugiyama,
- Abstract要約: 本稿では,MLLMの生成するアノテーションと人間のアノテーションのギャップを分析することを目的とする。
本稿では,MLLM生成アノテーションと人間のアノテーションのギャップを狭めることを目的とした,画像タグ付けのための新しいフレームワークであるTagLLMを提案する。
- 参考スコア(独自算出の注目度): 62.01475514488922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image tagging, a fundamental vision task, traditionally relies on human-annotated datasets to train multi-label classifiers, which incurs significant labor and costs. While Multimodal Large Language Models (MLLMs) offer promising potential to automate annotation, their capability to replace human annotators remains underexplored. This paper aims to analyze the gap between MLLM-generated and human annotations and to propose an effective solution that enables MLLM-based annotation to replace manual labeling. Our analysis of MLLM annotations reveals that, under a conservative estimate, MLLMs can reduce annotation cost to as low as one-thousandth of the human cost, mainly accounting for GPU usage, which is nearly negligible compared to manual efforts. Their annotation quality reaches about 50\% to 80\% of human performance, while achieving over 90\% performance on downstream training tasks.Motivated by these findings, we propose TagLLM, a novel framework for image tagging, which aims to narrow the gap between MLLM-generated and human annotations. TagLLM comprises two components: Candidates generation, which employs structured group-wise prompting to efficiently produce a compact candidate set that covers as many true labels as possible while reducing subsequent annotation workload; and label disambiguation, which interactively calibrates the semantic concept of categories in the prompts and effectively refines the candidate labels. Extensive experiments show that TagLLM substantially narrows the gap between MLLM-generated and human annotations, especially in downstream training performance, where it closes about 60\% to 80\% of the difference.
- Abstract(参考訳): 画像タグ付けは基本的な視覚タスクであり、伝統的に人間に注釈付けされたデータセットを使って複数ラベルの分類器を訓練する。
MLLM(Multimodal Large Language Models)は、アノテーションを自動化するための有望な可能性を提供するが、人間のアノテーションを置き換える能力はいまだ検討されていない。
本稿では,MLLMの生成するアノテーションと人間のアノテーションのギャップを解析し,MLLMベースのアノテーションを手動ラベリングに置き換えるための効果的なソリューションを提案する。
MLLMアノテーションの分析から,MLLMのアノテーションコストは人件費の5分の1程度に抑えられることが明らかとなった。
これらの結果から, MLLM生成と人的アノテーションのギャップを狭めるために, 画像タグ付けの新しいフレームワークであるTagLLMを提案する。
TagLLMは、2つのコンポーネントから構成される: 構成されたグループワイドプロンプトを使用して、後続のアノテーションのワークロードを減らしながら可能な限り多くの真のラベルをカバーするコンパクトな候補セットを効率的に生成する候補生成と、プロンプト内のカテゴリのセマンティックな概念を対話的に校正し、候補ラベルを効果的に洗練するラベル曖昧化である。
大規模な実験により、TagLLMはMLLMの生成したアノテーションと人間のアノテーションのギャップを著しく狭め、特に下流でのトレーニングでは、その差の約60%から80%を閉じていることがわかった。
関連論文リスト
- Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation [35.1208076670736]
本稿では,大言語モデルにおいて不確実性発生時に可能なラベルを全て出力することを推奨する新しい候補アノテーションパラダイムを提案する。
下流タスクにユニークなラベルを提供することを保証するため,小言語モデルを用いて候補アノテーションを蒸留する教師学習フレームワークCanDistを開発した。
論文 参考訳(メタデータ) (2025-06-04T11:42:37Z) - Large Language Models as Span Annotators [5.488183187190419]
大規模言語モデル(LLM)は柔軟性とコスト効率のよいアノテーションバックボーンとして機能することを示す。
出力アノテーションあたりのコストのごく一部で,LLMが人間のアノテーションに匹敵するアノテータ間合意(IAA)を達成することを示す。
論文 参考訳(メタデータ) (2025-04-11T17:04:51Z) - Utility-Focused LLM Annotation for Retrieval and Retrieval-Augmented Generation [96.18720164390699]
本稿では,大規模言語モデル (LLM) を用いた検索・検索・拡張生成システム (RAG) の訓練における文書ユーティリティのアノテートについて検討する。
以上の結果から,LLM生成アノテーションは,人間のアノテーションや下流QAメトリクスのみを訓練したモデルと比較して,ドメイン外検索性能の向上とRAG結果の改善を図っている。
論文 参考訳(メタデータ) (2025-04-07T16:05:52Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。