論文の概要: Reducing Text Bias in Synthetically Generated MCQAs for VLMs in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2602.17677v1
- Date: Wed, 28 Jan 2026 20:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.501298
- Title: Reducing Text Bias in Synthetically Generated MCQAs for VLMs in Autonomous Driving
- Title(参考訳): 自動走行におけるVLM用合成MCQAのテキストバイアス低減
- Authors: Sutej Kulgod, Sean Ye, Sanchit Tanwar, Christoffer Heckman,
- Abstract要約: MCQA(Multiple Choice Question Answering)ベンチマークは、運転タスクにおける視覚言語モデル(VLM)のパフォーマンスを測定するための確立された標準である。
このようなデータに基づいて微調整されたVLMは、視覚的な入力を伴わずに、人為的なベンチマークに匹敵する精度が得られることを示す。
- 参考スコア(独自算出の注目度): 1.6039614357284375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple Choice Question Answering (MCQA) benchmarks are an established standard for measuring Vision Language Model (VLM) performance in driving tasks. However, we observe the known phenomenon that synthetically generated MCQAs are highly susceptible to hidden textual cues that allow models to exploit linguistic patterns rather than visual context. Our results show that a VLM fine-tuned on such data can achieve accuracy comparable to human-validated benchmarks even without visual input. Our proposed method reduces blind accuracy from +66.9% above random to +2.9%, eliminating the vast majority of exploitable textual shortcuts. By decoupling the correct answer from linguistic artifacts and employing a curriculum learning strategy, we force the model to rely on visual grounding, ensuring that performance accurately reflects perceptual understanding.
- Abstract(参考訳): MCQA(Multiple Choice Question Answering)ベンチマークは、運転タスクにおける視覚言語モデル(VLM)のパフォーマンスを測定するための確立された標準である。
しかし, 人工的に生成したMCQAは, 視覚的文脈ではなく, 言語的パターンをモデルが活用できる隠されたテキストの手がかりに非常に敏感である,という既知の現象を観察する。
この結果から,視覚的入力を伴わずに,人間の評価ベンチマークに匹敵する精度を達成できることが示唆された。
提案手法は, ランダム以上の視線精度を+66.9%から+2.9%に低減し, 利用可能なテキストショートカットの大部分を除去する。
言語的アーティファクトから正しい回答を分離し、カリキュラムの学習戦略を採用することで、我々は、モデルに視覚的基盤に頼るように強制し、パフォーマンスが知覚的理解を正確に反映することを保証する。
関連論文リスト
- Evaluating the encoding competence of visual language models using uncommon actions [5.816389980109022]
UAITは、視覚言語モデル(VLM)の動作シーンにおける意味理解能力をテストするために設計された新しい評価ベンチマークである。
我々は,大規模言語モデル,少数ショットプロンプトエンジニアリング,テキスト・ツー・イメージ・ジェネレーションを用いて,高品質な非常識画像テキストサンプルを合成する。
我々は、複数の最先端ビジュアル言語モデルを評価し、コントラスト学習に基づくモデルと比較する。
論文 参考訳(メタデータ) (2026-01-12T17:15:45Z) - Benchmarking and Mitigating MCQA Selection Bias of Large Vision-Language Models [2.393011821499345]
大規模視覚言語モデル(LVLM)における選択バイアスの存在と性質について検討する。
一般および文脈的プロンプトからアンサンブルバイアスベクトルを推定する推論時間ロジットレベルのデバイアス法を提案する。
本手法はリトレーニングなしでバイアスを軽減し,冷凍LVLMと互換性がある。
論文 参考訳(メタデータ) (2025-09-20T20:45:47Z) - Quality-Driven Curation of Remote Sensing Vision-Language Data via Learned Scoring Models [11.114790704621427]
VLM(Vision-Language Models)は、言語誘導セマンティックを通して、リモートセンシング(RS)画像を解釈する大きな可能性を実証している。
自動品質評価のための大規模RS視覚言語嗜好データに基づいて学習した新しいスコアモデルを提案する。
実験結果から,スコアモデルでランク付けされたデータのトップ30%を有する細調整のCLIPや高度なVLMは,全データ微調整とCLIPスコアに基づくランキング手法と比較して精度が高いことがわかった。
論文 参考訳(メタデータ) (2025-03-02T05:44:56Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。