Fugu-MT 論文翻訳(概要): Vision Large Language Models Are Good Noise Handlers in Engagement Analysis

論文の概要: Vision Large Language Models Are Good Noise Handlers in Engagement Analysis

arxiv url: http://arxiv.org/abs/2511.14749v1
Date: Tue, 18 Nov 2025 18:50:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-19 16:23:53.269831
Title: Vision Large Language Models Are Good Noise Handlers in Engagement Analysis
Title（参考訳）: 視覚大言語モデルとエンゲージメント解析
Authors: Alexander Vedernikov, Puneet Kumar, Haoyu Chen, Tapio Seppänen, Xiaobai Li,
Abstract要約: 本稿では,VLM(Vision Large Language Models)を利用したアノテーションの洗練とトレーニングプロセスの指導を行うフレームワークを提案する。本フレームワークでは,行動手がかりを抽出し,データを高信頼性サブセットと低信頼性サブセットに分割する。改良された高信頼性サブセットで訓練された古典型コンピュータビジョンモデルは,カリキュラム戦略により強化され,改善されたことを示す。
参考スコア（独自算出の注目度）: 54.397912827957164
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Engagement recognition in video datasets, unlike traditional image classification tasks, is particularly challenged by subjective labels and noise limiting model performance. To overcome the challenges of subjective and noisy engagement labels, we propose a framework leveraging Vision Large Language Models (VLMs) to refine annotations and guide the training process. Our framework uses a questionnaire to extract behavioral cues and split data into high- and low-reliability subsets. We also introduce a training strategy combining curriculum learning with soft label refinement, gradually incorporating ambiguous samples while adjusting supervision to reflect uncertainty. We demonstrate that classical computer vision models trained on refined high-reliability subsets and enhanced with our curriculum strategy show improvements, highlighting benefits of addressing label subjectivity with VLMs. This method surpasses prior state of the art across engagement benchmarks such as EngageNet (three of six feature settings, maximum improvement of +1.21%), and DREAMS / PAFE with F1 gains of +0.22 / +0.06.
Abstract（参考訳）: ビデオデータセットにおけるエンゲージメント認識は、従来の画像分類タスクとは異なり、特に主観的ラベルとノイズ制限モデルの性能によって困難である。主観的,騒々しいエンゲージメントラベルの課題を克服するために,VLM(Vision Large Language Models)を利用してアノテーションを洗練し,トレーニングプロセスの指導を行うフレームワークを提案する。本フレームワークでは,行動手がかりを抽出し,データを高信頼性サブセットと低信頼性サブセットに分割する。また、カリキュラム学習とソフトラベルの洗練を併用したトレーニング戦略を導入し、不確実性を反映した教師調整を行いながら、あいまいなサンプルを徐々に取り入れた。改良された高信頼性サブセットで学習し,カリキュラム戦略で強化された古典型コンピュータビジョンモデルは,VLMによるラベル主観性に対処する利点を浮き彫りにした。この方法は、EngageNet(6つの機能設定のうち3つ、+1.21%の最大改善)や、F1ゲインの+0.22 / +0.06のDREAMS / PAFEといったエンゲージメントベンチマークを越えている。

関連論文リスト

No Labels Needed: Zero-Shot Image Classification with Collaborative Self-Learning [0.0]
視覚言語モデル(VLM)と、事前学習された視覚モデルを用いた伝達学習は、この問題に対処するための有望な手法として現れる。本稿では,VLMと事前学習した視覚モデルを組み合わせたゼロショット画像分類フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-23T12:54:52Z)
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文参考訳（メタデータ） (2024-05-24T23:09:27Z)
Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。 LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文参考訳（メタデータ） (2024-05-23T14:30:33Z)
Expedited Training of Visual Conditioned Language Generation via Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文参考訳（メタデータ） (2023-10-05T03:40:06Z)
Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding [6.798129852396113]
視覚言語モデル(VLM)における合成推論を改善するためのシンプルで効果的な手法を提案する。本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。 CLIPと統合すると、最先端のベースラインよりも顕著な改善が得られます。
論文参考訳（メタデータ） (2023-06-15T03:26:28Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。