Fugu-MT 論文翻訳(概要): SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

論文の概要: SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

arxiv url: http://arxiv.org/abs/2504.07934v1
Date: Thu, 10 Apr 2025 17:49:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-18 16:03:08.308124
Title: SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement
Title（参考訳）: 少ないSoTA:データ効率の良いビジュアル推論自己改善のためのMCTSガイド付きサンプル選択
Authors: Xiyao Wang, Zhengyuan Yang, Chao Feng, Hongjin Lu, Linjie Li, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang,
Abstract要約: ThinkLite-VLはQwen2.5-VL-7Bインストラクションの平均性能を7%向上させる。私たちのコード、データ、モデルはhttps://github.com/si0wang/ThinkLite-VL.orgで公開されています。
参考スコア（独自算出の注目度）: 100.85923086072204
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present an effective method to enhance visual reasoning with significantly fewer training samples, relying purely on self-improvement with no knowledge distillation. Our key insight is that the difficulty of training data during reinforcement fine-tuning (RFT) is critical. Appropriately challenging samples can substantially boost reasoning capabilities even when the dataset is small. Despite being intuitive, the main challenge remains in accurately quantifying sample difficulty to enable effective data filtering. To this end, we propose a novel way of repurposing Monte Carlo Tree Search (MCTS) to achieve that. Starting from our curated 70k open-source training samples, we introduce an MCTS-based selection method that quantifies sample difficulty based on the number of iterations required by the VLMs to solve each problem. This explicit step-by-step reasoning in MCTS enforces the model to think longer and better identifies samples that are genuinely challenging. We filter and retain 11k samples to perform RFT on Qwen2.5-VL-7B-Instruct, resulting in our final model, ThinkLite-VL. Evaluation results on eight benchmarks show that ThinkLite-VL improves the average performance of Qwen2.5-VL-7B-Instruct by 7%, using only 11k training samples with no knowledge distillation. This significantly outperforms all existing 7B-level reasoning VLMs, and our fairly comparable baselines that use classic selection methods such as accuracy-based filtering. Notably, on MathVista, ThinkLite-VL-7B achieves the SoTA accuracy of 75.1, surpassing Qwen2.5-VL-72B, GPT-4o, and O1. Our code, data, and model are available at https://github.com/si0wang/ThinkLite-VL.
Abstract（参考訳）: 本稿では, 知識蒸留を伴わない自己改善に頼って, トレーニングサンプルを著しく減らし, 視覚的推論を効果的に向上する手法を提案する。我々の重要な洞察は、強化微調整(RFT)におけるトレーニングデータの難しさが重要であるということである。適切な挑戦的なサンプルは、データセットが小さい場合でも、推論能力を大幅に向上させることができる。直感的であるにもかかわらず、大きな課題は、効果的なデータフィルタリングを可能にするためにサンプルの難しさを正確に定量化することだ。そこで本研究では,モンテカルロ木探索 (MCTS) の新たな再資源化手法を提案する。得られた70kのオープンソーストレーニングサンプルから,VLMが各問題を解決するために必要なイテレーション数に基づいて,サンプルの難易度を定量化するMCTSベースの選択手法を提案する。 MCTSにおけるこの明確なステップバイステップの推論は、モデルをもっと長く考え、真に困難なサンプルをよりよく識別するように強制する。我々は、Qwen2.5-VL-7B-Instructで11kサンプルをフィルタし、保持し、最終的なモデルであるThinkLite-VLを得た。その結果,ThinkLite-VLはQwen2.5-VL-7B-インストラクタの平均性能を7%向上することがわかった。これは、既存の7Bレベルの推論VLMと、精度ベースのフィルタリングのような古典的な選択方法を使用するベースラインとでは同等である。特にMathVistaでは、ThinkLite-VL-7BはSoTAの精度が75.1で、Qwen2.5-VL-72B、GPT-4o、O1を上回っている。私たちのコード、データ、モデルはhttps://github.com/si0wang/ThinkLite-VL.orgで公開されています。

関連論文リスト

InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities [27.09178257629886]
InfiAlignは、大規模言語モデル(LLM)のためのスケーラブルでサンプル効率の良いポストトレーニングフレームワークである InfiAlignの中核は、オープンソースの推論から高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインである。本結果は,基本データ選択とフルステージポストトレーニングの併用の有効性を強調した。
論文参考訳（メタデータ） (2025-08-07T15:34:06Z)
Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
MiMo-VL Technical Report [73.47820531501678]
我々は、2つの強力なビジョン言語モデルであるMiMo-VL-7B-SFTとMiMo-VL-7B-RLをオープンソース化した。 MiMo-VL-7B-RLは40タスク中35タスクでQwen2.5-VL-7Bを上回っ、OlympiadBenchでは59.4得点を記録した。 GUIグラウンディングアプリケーションでは、OSWorld-G上で56.1の新しい標準を設定する。
論文参考訳（メタデータ） (2025-06-04T04:32:54Z)
Interactive Post-Training for Vision-Language-Action Models [28.32397816792674]
RIPT-VLAは、シンプルでスケーラブルな強化学習に基づくインタラクティブなポストトレーニングパラダイムである。 RIPT-VLAファインチューンで訓練されたビジョン・ランゲージ・アクション(VLA)モデルは、わずかに二進的な成功報酬のみを使用する。 1つのデモだけで、RIPT-VLAは15イテレーションで97%の成功率で作業不能なSFTモデルを成功させることができる。
論文参考訳（メタデータ） (2025-05-22T17:59:45Z)
LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning [76.82159851648711]
負対に対する埋め込みモデルの表現学習を動的に改善するフレームワークを提案する。 LLaVEは、最先端(SOTA)のパフォーマンスを実現する強力なベースラインを確立する。 LLaVEはゼロショット方式でテキストビデオ検索タスクを一般化し、高い性能を実現する。
論文参考訳（メタデータ） (2025-03-04T10:21:57Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文参考訳（メタデータ） (2025-02-17T15:13:29Z)
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組むまた,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文参考訳（メタデータ） (2025-02-11T08:48:48Z)
VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。現在の評価方法は、主に従来のタスクからのAIアノテーション付き好みラベルに依存している。 VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークである。
論文参考訳（メタデータ） (2024-11-26T14:08:34Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文参考訳（メタデータ） (2024-03-29T17:59:34Z)
Your Vision-Language Model Itself Is a Strong Filter: Towards High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文参考訳（メタデータ） (2024-02-19T20:08:48Z)
Efficiently Teaching an Effective Dense Retriever with Balanced Topic Aware Sampling [37.01593605084575]
TAS-Balancedは、効率的なトピック認識クエリとバランスの取れたマージンサンプリング技術です。本稿では,2つのTRECディープラーニングトラッククエリセットに対して,最先端の低レイテンシ(クエリ毎64ms)を実現するTAS-Balancedトレーニング手法を提案する。
論文参考訳（メタデータ） (2021-04-14T16:49:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。