Fugu-MT 論文翻訳(概要): Are Multimodal Large Language Models Good Annotators for Image Tagging?

論文の概要: Are Multimodal Large Language Models Good Annotators for Image Tagging?

arxiv url: http://arxiv.org/abs/2602.20972v1
Date: Tue, 24 Feb 2026 14:53:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.796788
Title: Are Multimodal Large Language Models Good Annotators for Image Tagging?
Title（参考訳）: マルチモーダル大言語モデルは画像タグ付けに適したアノテーションか?
Authors: Ming-Kun Xie, Jia-Hao Xiao, Zhiqiang Kou, Zhongnian Li, Gang Niu, Masashi Sugiyama,
Abstract要約: 本稿では,MLLMの生成するアノテーションと人間のアノテーションのギャップを分析することを目的とする。本稿では,MLLM生成アノテーションと人間のアノテーションのギャップを狭めることを目的とした,画像タグ付けのための新しいフレームワークであるTagLLMを提案する。
参考スコア（独自算出の注目度）: 62.01475514488922
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image tagging, a fundamental vision task, traditionally relies on human-annotated datasets to train multi-label classifiers, which incurs significant labor and costs. While Multimodal Large Language Models (MLLMs) offer promising potential to automate annotation, their capability to replace human annotators remains underexplored. This paper aims to analyze the gap between MLLM-generated and human annotations and to propose an effective solution that enables MLLM-based annotation to replace manual labeling. Our analysis of MLLM annotations reveals that, under a conservative estimate, MLLMs can reduce annotation cost to as low as one-thousandth of the human cost, mainly accounting for GPU usage, which is nearly negligible compared to manual efforts. Their annotation quality reaches about 50\% to 80\% of human performance, while achieving over 90\% performance on downstream training tasks.Motivated by these findings, we propose TagLLM, a novel framework for image tagging, which aims to narrow the gap between MLLM-generated and human annotations. TagLLM comprises two components: Candidates generation, which employs structured group-wise prompting to efficiently produce a compact candidate set that covers as many true labels as possible while reducing subsequent annotation workload; and label disambiguation, which interactively calibrates the semantic concept of categories in the prompts and effectively refines the candidate labels. Extensive experiments show that TagLLM substantially narrows the gap between MLLM-generated and human annotations, especially in downstream training performance, where it closes about 60\% to 80\% of the difference.
Abstract（参考訳）: 画像タグ付けは基本的な視覚タスクであり、伝統的に人間に注釈付けされたデータセットを使って複数ラベルの分類器を訓練する。 MLLM(Multimodal Large Language Models)は、アノテーションを自動化するための有望な可能性を提供するが、人間のアノテーションを置き換える能力はいまだ検討されていない。本稿では,MLLMの生成するアノテーションと人間のアノテーションのギャップを解析し,MLLMベースのアノテーションを手動ラベリングに置き換えるための効果的なソリューションを提案する。 MLLMアノテーションの分析から,MLLMのアノテーションコストは人件費の5分の1程度に抑えられることが明らかとなった。これらの結果から, MLLM生成と人的アノテーションのギャップを狭めるために, 画像タグ付けの新しいフレームワークであるTagLLMを提案する。 TagLLMは、2つのコンポーネントから構成される: 構成されたグループワイドプロンプトを使用して、後続のアノテーションのワークロードを減らしながら可能な限り多くの真のラベルをカバーするコンパクトな候補セットを効率的に生成する候補生成と、プロンプト内のカテゴリのセマンティックな概念を対話的に校正し、候補ラベルを効果的に洗練するラベル曖昧化である。大規模な実験により、TagLLMはMLLMの生成したアノテーションと人間のアノテーションのギャップを著しく狭め、特に下流でのトレーニングでは、その差の約60%から80%を閉じていることがわかった。

関連論文リスト

Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation [35.1208076670736]
本稿では,大言語モデルにおいて不確実性発生時に可能なラベルを全て出力することを推奨する新しい候補アノテーションパラダイムを提案する。下流タスクにユニークなラベルを提供することを保証するため,小言語モデルを用いて候補アノテーションを蒸留する教師学習フレームワークCanDistを開発した。
論文参考訳（メタデータ） (2025-06-04T11:42:37Z)
Large Language Models as Span Annotators [5.488183187190419]
大規模言語モデル(LLM)は柔軟性とコスト効率のよいアノテーションバックボーンとして機能することを示す。出力アノテーションあたりのコストのごく一部で,LLMが人間のアノテーションに匹敵するアノテータ間合意(IAA)を達成することを示す。
論文参考訳（メタデータ） (2025-04-11T17:04:51Z)
Utility-Focused LLM Annotation for Retrieval and Retrieval-Augmented Generation [96.18720164390699]
本稿では,大規模言語モデル (LLM) を用いた検索・検索・拡張生成システム (RAG) の訓練における文書ユーティリティのアノテートについて検討する。以上の結果から,LLM生成アノテーションは,人間のアノテーションや下流QAメトリクスのみを訓練したモデルと比較して,ドメイン外検索性能の向上とRAG結果の改善を図っている。
論文参考訳（メタデータ） (2025-04-07T16:05:52Z)
SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。 HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。 HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文参考訳（メタデータ） (2025-03-11T17:08:54Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文参考訳（メタデータ） (2023-10-24T08:56:49Z)
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [111.51612340032052]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。本稿では,MLLM 評価ベンチマーク MME について述べる。知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文参考訳（メタデータ） (2023-06-23T09:22:36Z)
Generation-driven Contrastive Self-training for Zero-shot Text Classification with Instruction-following LLM [31.25193238045053]
我々は、より小さな言語モデルの訓練を支援するために、大規模言語モデルの強力な生成力を利用する新しい手法、GenCoを導入する。本手法では,LLMは2つの重要な方法で,より小さなモデルの自己学習ループにおいて重要な役割を果たす。予測ラベルに条件付き入力テキストを書き換えることで、高品質なトレーニングペアの開発を支援する。
論文参考訳（メタデータ） (2023-04-24T07:35:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。