論文の概要: Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing
- arxiv url: http://arxiv.org/abs/2510.26474v1
- Date: Thu, 30 Oct 2025 13:26:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.821488
- Title: Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing
- Title(参考訳): ヘッドテールリバランシングによるLVLMの自己改善におけるマシュー効果の抑制
- Authors: Xin Guo, Zhiheng Xi, Yiwen Ding, Yitao Zhai, Xiaowei Shi, Xunliang Cai, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: 自己改善は、大きな視覚言語モデルの推論能力を向上するための主流パラダイムとして現れてきた。
本研究では,探索学習による自己改善プロセスにおいて,頭部再バランスを実現するための4つの効率的な戦略を提案する。
我々の手法は視覚的推論能力を常に改善し、バニラ自己改善を平均3.86ポイント上回る。
- 参考スコア(独自算出の注目度): 70.35701681177655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-improvement has emerged as a mainstream paradigm for advancing the reasoning capabilities of large vision-language models (LVLMs), where models explore and learn from successful trajectories iteratively. However, we identify a critical issue during this process: the model excels at generating high-quality trajectories for simple queries (i.e., head data) but struggles with more complex ones (i.e., tail data). This leads to an imbalanced optimization that drives the model to prioritize simple reasoning skills, while hindering its ability to tackle more complex reasoning tasks. Over iterations, this imbalance becomes increasingly pronounced--a dynamic we term the "Matthew effect"--which ultimately hinders further model improvement and leads to performance bottlenecks. To counteract this challenge, we introduce four efficient strategies from two perspectives: distribution-reshaping and trajectory-resampling, to achieve head-tail re-balancing during the exploration-and-learning self-improvement process. Extensive experiments on Qwen2-VL-7B-Instruct and InternVL2.5-4B models across visual reasoning tasks demonstrate that our methods consistently improve visual reasoning capabilities, outperforming vanilla self-improvement by 3.86 points on average.
- Abstract(参考訳): 自己改善は、大きな視覚言語モデル(LVLM)の推論能力を進化させる主要なパラダイムとして現れ、モデルが軌道を反復的に探索し、学習する。
モデルは単純なクエリ(すなわち、ヘッドデータ)のために高品質なトラジェクトリを生成するのに優れるが、より複雑なデータ(すなわち、テールデータ)と競合する。
これにより、モデルは単純な推論スキルを優先し、より複雑な推論タスクに取り組む能力を妨げる不均衡な最適化につながる。
イテレーションを通じて、この不均衡はますます顕著になる — 動的に"マシュー効果"と呼ばれます — モデルの改善をさらに妨げ、パフォーマンスのボトルネックにつながるのです。
この課題に対処するために、我々は2つの視点から、4つの効率的な戦略を導入する: 分布再構成と軌道再サンプリングであり、探索と学習の自己改善過程において、ヘッドテールの再バランスを達成する。
Qwen2-VL-7B-InstructとInternVL2.5-4Bの視覚的推論タスクに対する広範囲な実験により、我々の手法は視覚的推論能力を一貫して改善し、バニラ自己改善を平均3.86ポイント上回った。
関連論文リスト
- Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models [17.431298099935344]
大規模言語モデル(LLM)において、推論が重要な機能として現れている。
近年の研究では、視覚言語モデル(VLM)への推論の拡張が試みられている。
本研究は、マルチモーダル推論の二重性を明らかにし、他の基本的な視覚的問題に対する認識障害につながった。
本稿では,視覚的接地軌道に対する推論過程を明確に把握する,シンプルかつ効果的な手法であるビジョン・アンコレッド・ポリシー・オプティマイズ(VAPO)を提案する。
論文 参考訳(メタデータ) (2025-09-30T06:37:47Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Iterative Deepening Sampling as Efficient Test-Time Scaling [27.807695570974644]
OpenAIのO1シリーズのような最近の推論モデルは、複雑な推論タスクにおいて例外的なパフォーマンスを示している。
本稿では,自己補正の強化と高品質なサンプル生成を目的とした,新しい反復型深層サンプリングアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-08T04:39:51Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。
本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。
我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文 参考訳(メタデータ) (2024-11-17T12:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。