論文の概要: Better Supervised Fine-tuning for VQA: Integer-Only Loss
- arxiv url: http://arxiv.org/abs/2508.11170v1
- Date: Fri, 15 Aug 2025 02:40:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.718142
- Title: Better Supervised Fine-tuning for VQA: Integer-Only Loss
- Title(参考訳): 改良されたVQAファインチューニング - Integer-Only Loss
- Authors: Baihong Qian, Haotian Fan, Wenjie Liao, Yunqiu Wang, Tao Li, Junhui Cui,
- Abstract要約: IOVQA(Integer-only VQA)は視覚言語モデルに適した新しい微調整手法である。
データセットのキュレーションでは、[10,50]の範囲内でモデルの出力を整数に制限し、数値的な安定性を確保する。
損失を計算する際には、ラベルの最初の2桁の整数だけがマスクされていない。
- 参考スコア(独自算出の注目度): 3.5053983607635533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of vision language models(VLM), their ability to assess visual content based on specific criteria and dimensions has become increasingly critical for applications such as video-theme consistency assessment and visual quality scoring. However, existing methods often suffer from imprecise results and inefficient loss calculation, which limit the focus of the model on key evaluation indicators. To address this, we propose IOVQA(Integer-only VQA), a novel fine-tuning approach tailored for VLMs to enhance their performance in video quality assessment tasks. The key innovation of IOVQA lies in its label construction and its targeted loss calculation mechanism. Specifically, during dataset curation, we constrain the model's output to integers within the range of [10,50], ensuring numerical stability, and convert decimal Overall_MOS to integer before using them as labels. We also introduce a target-mask strategy: when computing the loss, only the first two-digit-integer of the label is unmasked, forcing the model to learn the critical components of the numerical evaluation. After fine-tuning the Qwen2.5-VL model using the constructed dataset, experimental results demonstrate that the proposed method significantly improves the model's accuracy and consistency in the VQA task, ranking 3rd in VQualA 2025 GenAI-Bench AIGC Video Quality Assessment Challenge -- Track I. Our work highlights the effectiveness of merely leaving integer labels during fine-tuning, providing an effective idea for optimizing VLMs in quantitative evaluation scenarios.
- Abstract(参考訳): 視覚言語モデル(VLM)の急速な進歩により、ビデオテーマの整合性評価や視覚品質評価といった応用において、特定の基準や寸法に基づいて視覚コンテンツを評価する能力がますます重要になっている。
しかし、既存の手法は不正確な結果と非効率な損失計算に悩まされ、主要な評価指標に対するモデルの焦点が制限される。
そこで本研究では,ビデオ品質評価タスクにおける性能向上のために,VLMに適した新しい微調整手法であるIOVQA(Integer-only VQA)を提案する。
IOVQAの重要な革新は、ラベルの構築と目標損失計算機構にある。
具体的には、データセットのキュレーション中に、[10,50]の範囲内でのモデルの出力を整数に制限し、数値安定性を確保し、ラベルとして使用する前に十進のOfficial_MOSを整数に変換する。
また,損失を計算した場合,ラベルの最初の2桁の整数しかマスキングされず,数値評価の重要な要素を学習せざるを得ない,という目標マスク戦略も導入する。
構築したデータセットを用いてQwen2.5-VLモデルを微調整した結果、提案手法はVQAタスクにおけるモデルの精度と一貫性を著しく向上し、VQualA 2025 GenAI-Bench AIGC Video Quality Assessment Challenge -- Track Iにランク付けした。
関連論文リスト
- Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision [49.46606936180063]
ビデオ品質評価(VQA)は、様々なビデオ処理システムにおける品質の定量化に不可欠である。
我々はVQAのための自己教師型学習フレームワークを導入し、大規模でラベルなしのWebビデオから品質評価機能を学ぶ。
既存のVQAベンチマークよりも10倍のデータセットでトレーニングを行うことで、ゼロショットのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations [7.32619928577074]
本稿では,LLM生成データビジュアライゼーションの評価を自動化するために,VQA(Visual Question Answering)モデルを活用する新しいフレームワークを提案する。
以上の結果から,LLM 生成チャートは VQA の性能測定値に基づいて,元の非LLM 生成チャートの精度に合わないことが示唆された。
論文 参考訳(メタデータ) (2024-09-27T14:02:48Z) - Analysis of Video Quality Datasets via Design of Minimalistic Video Quality Models [71.06007696593704]
BVQA(Blind Quality Assessment)は、実世界のビデオ対応メディアアプリケーションにおけるエンドユーザの視聴体験の監視と改善に不可欠である。
実験分野として、BVQAモデルの改良は、主に数個の人間の評価されたVQAデータセットに基づいて測定されている。
最小主義的BVQAモデルを用いて,VQAデータセットの第一種計算解析を行う。
論文 参考訳(メタデータ) (2023-07-26T06:38:33Z) - Declaration-based Prompt Tuning for Visual Question Answering [16.688288454811016]
本稿では,DPT(Declaation-based Prompt Tuning)と呼ばれる,革新的なビジュアル言語(VL)ファインチューニングパラダイムを提案する。
DPTは、VQAモデルの事前学習と微調整の目的を共同で最適化し、事前学習されたVLモデルの下流タスクへの効果的な適応を促進する。
GQAデータセットの実験結果によると、DPTは完全な教師付き(2.68%)とゼロショット/フェーショット(31%以上)の両方で精度に大きな差で微調整されたデータセットよりも優れていた。
論文 参考訳(メタデータ) (2022-05-05T05:56:55Z) - UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated
Content [59.13821614689478]
コンテンツの品質劣化は予測不能で、複雑で、しばしば開始されるため、Wild動画のブラインド品質の予測は非常に難しい。
ここでは、主要なVQAモデルの包括的評価を行うことにより、この問題の進展に寄与する。
先行するVQAモデルの特徴の上に特徴選択戦略を適用することで,先行するモデルが使用する統計的特徴のうち60点を抽出することができる。
我々の実験結果から,VIDEVALは,他の先行モデルよりも計算コストがかなり低く,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-29T00:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。