論文の概要: ACT as Human: Multimodal Large Language Model Data Annotation with Critical Thinking
- arxiv url: http://arxiv.org/abs/2511.09833v1
- Date: Fri, 14 Nov 2025 01:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.517226
- Title: ACT as Human: Multimodal Large Language Model Data Annotation with Critical Thinking
- Title(参考訳): 人間としてのACT:批判的思考を伴う多モーダル大言語モデルデータアノテーション
- Authors: Lequan Lin, Dai Shi, Andi Han, Feng Chen, Qiuzheng Chen, Jiawen Li, Zhaoyang Li, Jiyuan Li, Zhenbang Sun, Junbin Gao,
- Abstract要約: 教師付き学習は高品質なラベル付きデータに頼っているが、人間のアノテーションを通してそのようなデータを取得するのは高価かつ時間を要する。
最近の研究は、アノテーションに大規模言語モデル(LLM)を使うことを探求しているが、LLM生成ラベルは人間レベルの品質に欠けている。
この問題に対処するために,批判的思考(ACT)データパイプラインを用いたスーパーバイスを提案する。
- 参考スコア(独自算出の注目度): 44.58919028628059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised learning relies on high-quality labeled data, but obtaining such data through human annotation is both expensive and time-consuming. Recent work explores using large language models (LLMs) for annotation, but LLM-generated labels still fall short of human-level quality. To address this problem, we propose the Annotation with Critical Thinking (ACT) data pipeline, where LLMs serve not only as annotators but also as judges to critically identify potential errors. Human effort is then directed towards reviewing only the most "suspicious" cases, significantly improving the human annotation efficiency. Our major contributions are as follows: (1) ACT is applicable to a wide range of domains, including natural language processing (NLP), computer vision (CV), and multimodal understanding, by leveraging multimodal-LLMs (MLLMs). (2) Through empirical studies, we derive 7 insights on how to enhance annotation quality while efficiently reducing the human cost, and then translate these findings into user-friendly guidelines. (3) We theoretically analyze how to modify the loss function so that models trained on ACT data achieve similar performance to those trained on fully human-annotated data. Our experiments show that the performance gap can be reduced to less than 2% on most benchmark datasets while saving up to 90% of human costs.
- Abstract(参考訳): 教師付き学習は高品質なラベル付きデータに頼っているが、人間のアノテーションを通してそのようなデータを取得するのは高価かつ時間を要する。
最近の研究は、アノテーションに大規模言語モデル(LLM)を使うことを探求しているが、LLM生成ラベルは人間レベルの品質に欠けている。
この問題に対処するため、我々は批判的思考(ACT)データパイプラインのアノテーションを提案し、LCMはアノテーションだけでなく、潜在的なエラーを批判的に識別する裁判官としても機能する。
人間の努力は、最も顕著なケースのみをレビューし、人間のアノテーション効率を大幅に改善することを目的としている。
1) ACTは自然言語処理(NLP)、コンピュータビジョン(CV)、マルチモーダル理解(Multimodal-LLM)など、幅広い分野に適用可能である。
2)実証研究を通じて,人件費を効率的に削減しつつ,アノテーションの質を高めるための7つの知見を導き,これらの知見をユーザフレンドリーなガイドラインに翻訳する。
(3) ACTデータで訓練されたモデルが、完全に人間に注釈付けされたデータで訓練されたモデルと同等の性能が得られるように、損失関数の修正方法を理論的に分析する。
実験の結果,ほとんどのベンチマークデータセットでは,パフォーマンスギャップを2%以下に削減できる一方で,最大90%の人的コストを削減できることがわかった。
関連論文リスト
- Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。
異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。
意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文 参考訳(メタデータ) (2025-06-24T09:49:26Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Illuminating Blind Spots of Language Models with Targeted Agent-in-the-Loop Synthetic Data [9.982616173090264]
言語モデル(LM)は、様々なタスクにおいて顕著な精度を達成したが、高信頼の誤分類(UU)に弱いままである。
UUは機能領域の盲点にクラスタ化され、ハイリスクなアプリケーションに重大なリスクをもたらす。
知的エージェントを教師として利用し,UU型エラーを特徴付けることによって,盲点緩和に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-26T16:49:25Z) - Interactive Multi-fidelity Learning for Cost-effective Adaptation of
Language Model with Sparse Human Supervision [6.151133144093847]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示した。
本稿では,小規模ドメイン固有LMの費用対効果向上を目的とした,インタラクティブ多要素学習(IMFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:39:23Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。