論文の概要: Human Uncertainty-Aware Data Selection and Automatic Labeling in Visual Question Answering
- arxiv url: http://arxiv.org/abs/2510.11295v1
- Date: Mon, 13 Oct 2025 11:35:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.341696
- Title: Human Uncertainty-Aware Data Selection and Automatic Labeling in Visual Question Answering
- Title(参考訳): 視覚質問応答における不確実性を考慮したデータ選択と自動ラベリング
- Authors: Jian Lan, Zhicheng Liu, Udo Schlegel, Raoyuan Zhao, Yihong Liu, Hinrich Schütze, Michael A. Hedderich, Thomas Seidl,
- Abstract要約: HaDolaは4つの段階(識別、自己アノテーション、エラートリガー、トレーニング)で動作し、有害なサンプルを反復的に識別し、情報的なものを優先順位付けし、小さなシードセットからブートストラップする。
提案手法は,高コストなHUアノテーションへの依存を大幅に低減し,VLMの精度と校正性を向上する。
- 参考スコア(独自算出の注目度): 50.6117007117789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (VLMs) achieve strong performance in Visual Question Answering but still rely heavily on supervised fine-tuning (SFT) with massive labeled datasets, which is costly due to human annotations. Crucially, real-world datasets often exhibit human uncertainty (HU) -- variation in human confidence across annotations -- but standard SFT simply optimizes toward the most frequent label, disregarding HU distributions. This leaves two open questions: How does HU affect SFT, and how can HU be effectively leveraged in training? In this work, we first conduct a systematic evaluation of VLMs across varying HU levels. We have two key findings: (i) surprisingly, high-HU samples contribute little or even degrade model performance, and (ii) naively training on the full dataset yields under-calibrated models that fail to capture HU distributions. Motivated by these findings, we introduce HaDola, a human uncertainty-aware data selection and automatic labeling framework. HaDola operates in four stages -- discriminate, self-annotate, error trigger, and training -- to iteratively identify harmful samples, prioritize informative ones, and bootstrap from a small seed set (5\% of data). Our approach substantially reduces reliance on costly HU annotations and makes VLMs more accurate and better calibrated. Extensive experiments on VQAv2 and VizWiz datasets demonstrate that HaDola consistently matches or outperforms state-of-the-art baselines with less training data. Our work highlights the importance of explicitly modeling HU in SFT, suggesting that better utilization of HU is more effective than merely scaling up dataset size.
- Abstract(参考訳): 大きな視覚言語モデル(VLM)は、ビジュアル質問回答において高いパフォーマンスを達成するが、人間のアノテーションによってコストがかかる巨大なラベル付きデータセットを持つ教師付き微調整(SFT)に大きく依存している。
しかし、標準的なSFTは、HUの分布を無視して、最も頻繁なラベルに最適化する。
HUはSFTにどのように影響し、HUをトレーニングで効果的に活用できるのか?
本研究ではまず,様々なHUレベルのVLMを系統的に評価する。
主な発見は2つあります。
(i)驚くべきことに、高HUサンプルはモデル性能の低下にはほとんど寄与しない。
(II)HU分布の取得に失敗する過度校正されたモデルを生成する。
これらの知見に触発されて、人間の不確実性を認識したデータ選択と自動ラベリングフレームワークであるHaDolaを紹介した。
HaDolaは4つのステージ – 識別、自己アノテーション、エラートリガー、トレーニング – で動作し、有害サンプルを反復的に識別し、情報を優先し、小さなシードセット(データの55%)からブートストラップを行う。
提案手法は,高コストなHUアノテーションへの依存を大幅に低減し,VLMの精度と校正性を向上する。
VQAv2とVizWizのデータセットに関する大規模な実験は、HaDolaがトレーニングデータが少なくて最先端のベースラインと一貫して一致し、性能を向上していることを示している。
我々の研究は、SFTにおけるHUを明示的にモデル化することの重要性を強調し、データセットサイズを単にスケールアップするよりも、HUのより良い利用の方が効果的であることを示唆している。
関連論文リスト
- Fine-tuning can Help Detect Pretraining Data from Large Language Models [7.7209640786782385]
現在のメソッドでは、PerplexityやMin-k%といったスコアリング関数を設計することで、メンバと非メンバを区別している。
本研究では,FSD(Fun-Tuned Score Deviation)と呼ばれる新しい手法を提案する。
特に、同じ領域内の少数の未確認データを微調整した後、電流スコアの偏差距離を測定することを提案する。
論文 参考訳(メタデータ) (2024-10-09T15:36:42Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Effects of Human Adversarial and Affable Samples on BERT Generalization [12.000570944219515]
本研究では,学習データ品質がモデルの一般化可能性に及ぼす影響について検討する。
トレーニングサンプルのサイズが一定であれば,10~30%のh-adversarialインスタンスを使用すれば,精度が向上することがわかった。
論文 参考訳(メタデータ) (2023-10-12T03:20:43Z) - On the Connection between Pre-training Data Diversity and Fine-tuning
Robustness [66.30369048726145]
下流の有効ロバスト性に影響を与える主な要因はデータ量である。
各種自然および合成データソースから抽出した事前学習分布について,本研究の成果を示す。
論文 参考訳(メタデータ) (2023-07-24T05:36:19Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - A semi-supervised Teacher-Student framework for surgical tool detection
and localization [2.41710192205034]
外科的ツール検出のパラダイムにおいて,半教師付き学習(SSL)フレームワークを導入する。
提案手法では,教師-学生共同学習を初期化するラベル付きデータを用いたモデルを訓練する。
m2cai16-tool-locations データセットの結果は、異なる教師付きデータ設定に対するアプローチの優位性を示している。
論文 参考訳(メタデータ) (2022-08-21T17:21:31Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。