論文の概要: Efficient Data Selection for Multimodal Models via Incremental Optimization Utility
- arxiv url: http://arxiv.org/abs/2605.07488v1
- Date: Fri, 08 May 2026 09:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.95782
- Title: Efficient Data Selection for Multimodal Models via Incremental Optimization Utility
- Title(参考訳): インクリメンタル最適化によるマルチモーダルモデルの効率的なデータ選択
- Authors: Jinhao Jing, Qiannian Zhao, Chao Huang, Zhan Su,
- Abstract要約: 本稿では,データ選択をインクリメンタルな最適化ユーティリティランキング問題として再定義するフレームワークであるOne-Step-Train(OST)を提案する。
トップ50サブセットを選択することで、OSTはトレーニングコストを43%削減し(トータルタイム消費は17)、強力なLCM-as-a-Judgeベースラインを1.8ポイント上回る。
- 参考スコア(独自算出の注目度): 6.698411108146732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scaling of Large Multimodal Models (LMMs) is constrained by the quality-quantity trade-off inherent in synthetic data. Previous approaches, such as LLM-as-a-Judge, have proven their effectiveness in addressing this but suffer from prohibitive computational costs and lack of interpretability. To bridge this gap, we propose One-Step-Train (OST), a framework that reformulates data selection as an incremental optimization utility ranking problem. Instead of relying on semantic heuristics, OST estimates the marginal utility of each sample via a simulated single-step update on a lightweight proxy. Experiments on the Qwen series across multimodal mathematical reasoning benchmarks demonstrate that OST achieves Pareto-optimal efficiency. By selecting the top-50 subset, OST reduces training costs by 43% (and total time consumption by 17) while surpassing the strong LLM-as-a-Judge baseline by 1.8 points. Furthermore, under a fixed compute budget, our method using only the top-20 subset achieves a 5.6 point gain over LLM-as-a-Judge, improves upon heuristic scoring baselines like DEITA, and outperforms the Full-SFT baseline by 8.8 points. Notably, while Full-SFT suffers from performance degradation due to noise, our optimization-grounded approach effectively identifies toxic samples, successfully reversing the negative transfer frequently observed in complex reasoning tasks.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)のスケーリングは、合成データに固有の品質-量的トレードオフによって制約される。
LLM-as-a-Judgeのような従来のアプローチは、この問題に対処する上での有効性を証明してきたが、計算コストの禁止と解釈可能性の欠如に悩まされている。
このギャップを埋めるために,データ選択をインクリメンタルな最適化ユーティリティランキング問題として再構成するフレームワークであるOne-Step-Train (OST)を提案する。
セマンティックヒューリスティックスに頼る代わりに、OSTは軽量プロキシのシミュレーションシングルステップ更新を通じて、各サンプルの限界ユーティリティを見積もる。
マルチモーダルな数学的推論ベンチマークによるQwen級数の実験は、OSTがパレート最適効率を達成することを示した。
トップ50サブセットを選択することで、OSTはトレーニングコストを43%削減し(トータルタイム消費は17)、強力なLCM-as-a-Judgeベースラインを1.8ポイント上回る。
さらに, 計算予算の固定化により, 上位20サブセットのみを用いて, LLM-as-a-Judgeよりも5.6ポイント向上し, DEITAのようなヒューリスティックスコアリングベースラインを改良し, フルSFTベースラインを8.8ポイント上回った。
特に、Full-SFTはノイズによる性能劣化に悩まされているが、我々の最適化されたアプローチは有毒な試料を効果的に同定し、複雑な推論タスクでよく見られる負の移動を逆転させることに成功した。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。
我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。
静的マスキング戦略と動的マスキング戦略を比較し、トレーニング前にゼロでないエントリを事前に決定する静的マスキングが、パフォーマンスを犠牲にすることなく効率を向上することを示した。
論文 参考訳(メタデータ) (2024-12-18T04:14:35Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning [45.64632177923583]
本研究は、不要なデータの影響を取り除くことを目的として、大規模言語モデル(LLM)アンラーニングの問題を研究する。
未学習の需要が増えているにもかかわらず、技術的に地平線を画した最適化フレームワークは欠如している。
我々はSimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し、参照モデルへの依存をなくすことによる「単純さ」がアンラーニングの恩恵をもたらすことを示した。
論文 参考訳(メタデータ) (2024-10-09T17:58:12Z) - OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。