論文の概要: Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT
- arxiv url: http://arxiv.org/abs/2603.09715v1
- Date: Tue, 10 Mar 2026 14:23:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.389887
- Title: Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT
- Title(参考訳): 質問は本当に重要か? : ビジョンランゲージSFTのための学習自由データ選択
- Authors: Peng Sun, Huawen Shen, Yi Ban, Tianfan Fu, Yanbo Wang, Yuqiang Li,
- Abstract要約: 視覚インストラクションチューニングは、視覚言語による大規模モデルの改善に不可欠である。
多くのサンプルは、真のクロスモーダルな推論なしで、言語パターンや常識的なショートカットによって解決することができる。
CVSは,高品質なマルチモーダルサンプルに対して,質問を導入することにより,モデルによる回答の有効性の評価が大幅に変化するという知見に基づいて,トレーニング不要なデータ選択手法である。
- 参考スコア(独自算出の注目度): 19.011525829468326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual instruction tuning is crucial for improving vision-language large models (VLLMs). However, many samples can be solved via linguistic patterns or common-sense shortcuts, without genuine cross-modal reasoning, limiting the effectiveness of multimodal learning. Prior data selection methods often rely on costly proxy model training and focus on difficulty or diversity, failing to capture a sample's true contribution to vision-language joint reasoning. In this paper, we propose CVS, a training-free data selection method based on the insight that, for high-quality multimodal samples, introducing the question should substantially alter the model's assessment of answer validity given an image. CVS leverages a frozen VLLM as an evaluator and measures the discrepancy in answer validity with and without conditioning on the question, enabling the identification of samples that require vision-language joint reasoning while filtering semantic-conflict noise. Experiments on Vision-Flan and The Cauldron show that CVS achieves solid performance across datasets. On Vision-Flan, CVS outperforms full-data training by 3.5% and 4.8% using only 10% and 15% of the data, respectively, and remains robust on the highly heterogeneous Cauldron dataset. Moreover, CVS reduces computational cost by 17.3% and 44.4% compared to COINCIDE and XMAS.
- Abstract(参考訳): 視覚インストラクションチューニングは視覚言語大モデル(VLLM)の改善に不可欠である。
しかし、多くのサンプルは言語パターンや常識的ショートカットを通じて、真のクロスモーダル推論なしで解決することができ、マルチモーダル学習の有効性を制限している。
以前のデータ選択方法は、しばしばコストのかかるプロキシモデルのトレーニングに頼り、難易度や多様性に重点を置いており、視覚言語による共同推論に対するサンプルの真の貢献を捉えていない。
本稿では,高品質なマルチモーダルサンプルに対して,画像から得られる回答の有効性のモデルによる評価を大幅に変更すべきである,という知見に基づいて,トレーニング不要なデータ選択手法であるCVSを提案する。
CVSは凍結したVLLMを評価器として利用し、質問に対する条件付及び条件付の回答妥当性の相違を計測し、セマンティック・コンフリクトノイズをフィルタリングしながら視覚言語による共同推論を必要とするサンプルの識別を可能にする。
Vision-FlanとThe Cauldronの実験によると、CVSはデータセット間で堅牢なパフォーマンスを実現している。
Vision-Flanでは、CVSはデータの10%と15%しか使用せず、フルデータのトレーニングを3.5%と4.8%で上回り、非常に異質なCauldronデータセット上でも堅牢である。
さらに、CVS は COINCIDE や XMAS と比較して計算コストを 17.3% と 44.4% 削減している。
関連論文リスト
- HoneyBee: Data Recipes for Vision-Language Reasoners [90.83745691506329]
いくつかのデータキュレーション手法を導入し、視覚言語モデル(VLM)への影響について検討する。
我々は、コンテキスト(イメージと質問ペア)ソースの効果を分析し、対象とするデータ介入を実装し、画像、質問、チェーン・オブ・思想(CoT)ソリューションのスケールアップを探る。
これらの知見に触発されたHoneyBeeは、大規模で高品質なCoT推論データセットであり、350万のイメージ検索ペアからなる2.5万のサンプルがある。
論文 参考訳(メタデータ) (2025-10-14T07:23:44Z) - Human Uncertainty-Aware Data Selection and Automatic Labeling in Visual Question Answering [50.6117007117789]
HaDolaは4つの段階(識別、自己アノテーション、エラートリガー、トレーニング)で動作し、有害なサンプルを反復的に識別し、情報的なものを優先順位付けし、小さなシードセットからブートストラップする。
提案手法は,高コストなHUアノテーションへの依存を大幅に低減し,VLMの精度と校正性を向上する。
論文 参考訳(メタデータ) (2025-10-13T11:35:30Z) - Mitigating Image Captioning Hallucinations in Vision-Language Models [13.707454974844095]
視覚言語モデルの幻覚は、信頼性と現実の応用性を妨げている。
本稿では,推論中の幻覚を緩和するための強化学習を用いた新しいテスト時間適応フレームワークを提案する。
本手法は, 幻覚緩和効果が68.3%向上し, 最先端のベースラインを上回った。
論文 参考訳(メタデータ) (2025-05-06T10:55:21Z) - Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Beyond Random Augmentations: Pretraining with Hard Views [40.88518237601708]
SSL(Self-Supervised Learning)メソッドは、異なる変換にモデルを不変にするために、ランダムなイメージ拡張(ビュー)に依存する。
本稿では,SSLプリトレーニング中に,より困難なサンプルにモデルを公開することにより,ランダムなビュー生成を拡張する学習自由な戦略であるハードビュー事前学習(HVP)を提案する。
HVPはDINO ViT-B/16に新しい最先端技術を設定し、78.8%の線形評価精度(0.6%の改善)に達し、100と300の事前訓練で1%の利得を得た。
論文 参考訳(メタデータ) (2023-10-05T23:09:19Z) - CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-24T08:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。