論文の概要: What Matters in Data Curation for Multimodal Reasoning? Insights from the DCVLR Challenge
- arxiv url: http://arxiv.org/abs/2601.10922v1
- Date: Fri, 16 Jan 2026 00:50:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.319108
- Title: What Matters in Data Curation for Multimodal Reasoning? Insights from the DCVLR Challenge
- Title(参考訳): マルチモーダル推論におけるデータキュレーションの意義 : DCVLRチャレンジからの考察
- Authors: Yosub Shin, Michael Buriek, Boris Sobolev, Pavel Bushuyeu, Vikas Kumar, Haoyang Xu, Samuel Watson, Igor Molybog,
- Abstract要約: 我々は,NuurIPS 2025 Data Curation for Vision-Language Reasoning (DLRCV)によるマルチモーダル推論のためのデータキュレーションについて検討した。
整列したベースデータセット上での難易度に基づくサンプル選択が、パフォーマンス向上の主要な要因であることを示す。
- 参考スコア(独自算出の注目度): 2.649673399541008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study data curation for multimodal reasoning through the NeurIPS 2025 Data Curation for Vision-Language Reasoning (DCVLR) challenge, which isolates dataset selection by fixing the model and training protocol. Using a compact curated dataset derived primarily from Walton Multimodal Cold Start, our submission placed first in the challenge. Through post-competition ablations, we show that difficulty-based example selection on an aligned base dataset is the dominant driver of performance gains. Increasing dataset size does not reliably improve mean accuracy under the fixed training recipe, but mainly reduces run-to-run variance, while commonly used diversity and synthetic augmentation heuristics provide no additional benefit and often degrade performance. These results characterize DCVLR as a saturation-regime evaluation and highlight the central role of alignment and difficulty in data-efficient multimodal reasoning.
- Abstract(参考訳): 我々は,NeurIPS 2025 Data Curation for Vision-Language Reasoning (DCVLR)チャレンジを通じて,マルチモーダル推論のためのデータキュレーションについて検討した。
ウォルトンマルチモーダルコールドスタートを主成分とする,コンパクトなキュレートデータセットを用いて,この課題に先んじた。
競合後の改善を通じて、アライメントベースデータセット上での難易度に基づくサンプル選択が、パフォーマンス向上の主要な要因であることを示す。
データセットサイズの増加は、固定されたトレーニングレシピの下で平均精度を確実に向上させるものではないが、主に実行時の分散を減少させるが、一般的に使われている多様性と合成拡張ヒューリスティックは、追加の利益を与えず、しばしば性能を低下させる。
これらの結果はDCVLRを飽和状態評価として特徴付け、データ効率のマルチモーダル推論におけるアライメントと難易度の中心的役割を強調している。
関連論文リスト
- Dual-level Modality Debiasing Learning for Unsupervised Visible-Infrared Person Re-Identification [59.59359638389348]
本稿では,モデルと最適化の両レベルでのデバイアス処理を実装したデュアルレベルのモダリティ・デバイアス学習フレームワークを提案する。
ベンチマークデータセットの実験では、DMDLはモダリティ不変の特徴学習とより一般化されたモデルを可能にすることを示した。
論文 参考訳(メタデータ) (2025-12-03T12:43:16Z) - Ranking-based Preference Optimization for Diffusion Models from Implicit User Feedback [28.40216934244641]
Diffusion Denoising Ranking Optimization (Diffusion-DRO) は、逆強化学習に基づく新しい好み学習フレームワークである。
拡散DROは、選好学習をランキング問題としてキャストすることで、報酬モデルへの依存を除去する。
オフラインの専門家によるデモとオンラインポリシー生成のネガティブなサンプルを統合することで、人間の好みを効果的に捉えることができる。
論文 参考訳(メタデータ) (2025-10-21T07:22:34Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [68.8373788348678]
ビジュアルインストラクションチューニングは、事前訓練されたマルチモーダル大言語モデルに人間の指示に従うように適応する。
PRISMは、効率的な視覚的命令選択のための最初のトレーニング不要のフレームワークである。
データ選択とモデルチューニングのエンドツーエンドの時間を従来のパイプラインの30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning [1.0709300917082865]
数発の強化学習のための合成非構造化データを生成するための分布認識フローマッチング手法を提案する。
我々のアプローチは、オーバーフィッティングやデータ相関など、従来のモデルベースRLにおける重要な課題に対処する。
提案手法は,初期タイムスタンプのフレームレートを30%向上させながら,最大Q値で安定した収束を実現することを示す。
論文 参考訳(メタデータ) (2024-09-21T15:50:59Z) - Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - Dataset Condensation with Latent Quantile Matching [5.466962214217334]
電流分布マッチング (DM) に基づく直流法は, 合成外乱と実外乱の遅延埋め込みの平均をマッチングすることにより, 合成データセットを学習する。
本稿では,2つの分布間の適合試験統計量の良さを最小化するために,遅延埋め込みの量子化と一致する潜在量子マッチング(LQM)を提案する。
論文 参考訳(メタデータ) (2024-06-14T09:20:44Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。