論文の概要: SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement
- arxiv url: http://arxiv.org/abs/2504.07934v1
- Date: Thu, 10 Apr 2025 17:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:20:41.112308
- Title: SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement
- Title(参考訳): 少ないSoTA:データ効率の良いビジュアル推論自己改善のためのMCTSガイド付きサンプル選択
- Authors: Xiyao Wang, Zhengyuan Yang, Chao Feng, Hongjin Lu, Linjie Li, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang,
- Abstract要約: ThinkLite-VLはQwen2.5-VL-7Bインストラクションの平均性能を7%向上させる。
私たちのコード、データ、モデルはhttps://github.com/si0wang/ThinkLite-VL.orgで公開されています。
- 参考スコア(独自算出の注目度): 100.85923086072204
- License:
- Abstract: In this paper, we present an effective method to enhance visual reasoning with significantly fewer training samples, relying purely on self-improvement with no knowledge distillation. Our key insight is that the difficulty of training data during reinforcement fine-tuning (RFT) is critical. Appropriately challenging samples can substantially boost reasoning capabilities even when the dataset is small. Despite being intuitive, the main challenge remains in accurately quantifying sample difficulty to enable effective data filtering. To this end, we propose a novel way of repurposing Monte Carlo Tree Search (MCTS) to achieve that. Starting from our curated 70k open-source training samples, we introduce an MCTS-based selection method that quantifies sample difficulty based on the number of iterations required by the VLMs to solve each problem. This explicit step-by-step reasoning in MCTS enforces the model to think longer and better identifies samples that are genuinely challenging. We filter and retain 11k samples to perform RFT on Qwen2.5-VL-7B-Instruct, resulting in our final model, ThinkLite-VL. Evaluation results on eight benchmarks show that ThinkLite-VL improves the average performance of Qwen2.5-VL-7B-Instruct by 7%, using only 11k training samples with no knowledge distillation. This significantly outperforms all existing 7B-level reasoning VLMs, and our fairly comparable baselines that use classic selection methods such as accuracy-based filtering. Notably, on MathVista, ThinkLite-VL-7B achieves the SoTA accuracy of 75.1, surpassing Qwen2.5-VL-72B, GPT-4o, and O1. Our code, data, and model are available at https://github.com/si0wang/ThinkLite-VL.
- Abstract(参考訳): 本稿では, 知識蒸留を伴わない自己改善に頼って, トレーニングサンプルを著しく減らし, 視覚的推論を効果的に向上する手法を提案する。
我々の重要な洞察は、強化微調整(RFT)におけるトレーニングデータの難しさが重要であるということである。
適切な挑戦的なサンプルは、データセットが小さい場合でも、推論能力を大幅に向上させることができる。
直感的であるにもかかわらず、大きな課題は、効果的なデータフィルタリングを可能にするためにサンプルの難しさを正確に定量化することだ。
そこで本研究では,モンテカルロ木探索 (MCTS) の新たな再資源化手法を提案する。
得られた70kのオープンソーストレーニングサンプルから,VLMが各問題を解決するために必要なイテレーション数に基づいて,サンプルの難易度を定量化するMCTSベースの選択手法を提案する。
MCTSにおけるこの明確なステップバイステップの推論は、モデルをもっと長く考え、真に困難なサンプルをよりよく識別するように強制する。
我々は、Qwen2.5-VL-7B-Instructで11kサンプルをフィルタし、保持し、最終的なモデルであるThinkLite-VLを得た。
その結果,ThinkLite-VLはQwen2.5-VL-7B-インストラクタの平均性能を7%向上することがわかった。
これは、既存の7Bレベルの推論VLMと、精度ベースのフィルタリングのような古典的な選択方法を使用するベースラインとでは同等である。
特にMathVistaでは、ThinkLite-VL-7BはSoTAの精度が75.1で、Qwen2.5-VL-72B、GPT-4o、O1を上回っている。
私たちのコード、データ、モデルはhttps://github.com/si0wang/ThinkLite-VL.orgで公開されています。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。
提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。
再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文 参考訳(メタデータ) (2025-02-17T15:13:29Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - Efficiently Teaching an Effective Dense Retriever with Balanced Topic
Aware Sampling [37.01593605084575]
TAS-Balancedは、効率的なトピック認識クエリとバランスの取れたマージンサンプリング技術です。
本稿では,2つのTRECディープラーニングトラッククエリセットに対して,最先端の低レイテンシ(クエリ毎64ms)を実現するTAS-Balancedトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T16:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。