論文の概要: When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2603.21289v1
- Date: Sun, 22 Mar 2026 15:22:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.33363
- Title: When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning
- Title(参考訳): モデル判断のテーマ:マルチモーダル推論のための教師なし自己進化
- Authors: Zhengxian Wu, Kai Shi, Chuanrui Zhang, Zirui Liao, Jun Yang, Ni Yang, Qiuying Peng, Luyuan Zhang, Hangrui Xu, Tianhuang Su, Zhenyu Yang, Haonan Lu, Haoqian Wang,
- Abstract要約: マルチモーダル推論のための教師なし自己進化学習フレームワークを提案する。
ヒューマンアノテートされた回答や外部報酬モデルを用いることなく、安定したパフォーマンス向上を実現する。
提案手法は5つの数学的推論ベンチマークにおける推論性能と一般化を一貫して改善する。
- 参考スコア(独自算出の注目度): 30.162034423611292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in multimodal large language models has led to strong performance on reasoning tasks, but these improvements largely rely on high-quality annotated data or teacher-model distillation, both of which are costly and difficult to scale.To address this, we propose an unsupervised self-evolution training framework for multimodal reasoning that achieves stable performance improvements without using human-annotated answers or external reward models. For each input, we sample multiple reasoning trajectories and jointly model their within group structure.We use the Actor's self-consistency signal as a training prior, and introduce a bounded Judge based modulation to continuously reweight trajectories of different quality.We further model the modulated scores as a group level distribution and convert absolute scores into relative advantages within each group, enabling more robust policy updates. Trained with Group Relative Policy Optimization (GRPO) on unlabeled data, our method consistently improves reasoning performance and generalization on five mathematical reasoning benchmarks, offering a scalable path toward self-evolving multimodal models.The code are available at https://dingwu1021.github.io/SelfJudge/.
- Abstract(参考訳): 近年のマルチモーダルな大規模言語モデルの進歩は推論タスクに強いパフォーマンスをもたらしているが、これらの改善は主に高品質なアノテートデータや教師モデル蒸留に依存しており、どちらもコストがかかりスケールが困難である。
各入力に対して、複数の推論軌跡をサンプリングし、グループ構造内でそれらを連成的にモデル化し、アクターの自己整合性信号を事前訓練として使用し、異なる品質の連続的な重み付けに対する有界判断に基づく変調を導入し、さらに、変調されたスコアをグループレベルの分布としてモデル化し、絶対スコアを各グループ内の相対的な優位性に変換し、より堅牢なポリシー更新を可能にする。
グループ相対ポリシー最適化(GRPO)を用いてラベルのないデータで学習し、5つの数学的推論ベンチマークにおける推論性能と一般化を継続的に改善し、自己進化型マルチモーダルモデルへのスケーラブルなパスを提供する。
関連論文リスト
- Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis [34.5994686982342]
強い意味表現は拡散と流れモデルの収束と生成の質を向上させる。
既存のアプローチは、主に外部モデルに依存しており、個別のトレーニングが必要であり、不整合した目標を運用し、予期しないスケーリングの振る舞いを示す。
本稿では,自己制御型フローマッチングパラダイムであるSelf-Flowを紹介する。
論文 参考訳(メタデータ) (2026-03-06T17:41:49Z) - Bagging-Based Model Merging for Robust General Text Embeddings [73.51674133699196]
汎用テキスト埋め込みモデルは、幅広いNLPおよび情報検索アプリケーションを支える。
本稿では,データスケジューリングとモデルマージという2つの観点から,テキスト埋め込みのためのマルチタスク学習の体系的研究を行う。
本稿では,Baging ベースの rObust mOdel Merging (BOOM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T15:45:08Z) - Multi-Action Self-Improvement for Neural Combinatorial Optimization [0.979731979071071]
自己改善モデルは、高品質なソリューションの生成と模倣によってポリシーを反復的に洗練する。
これらのアプローチは、複数のエージェントの協調に関わる問題の構造を活用できない。
共同マルチエージェント動作による自己改善を拡大する。
論文 参考訳(メタデータ) (2025-10-14T08:26:27Z) - Merge and Guide: Unifying Model Merging and Guided Decoding for Controllable Multi-Objective Generation [49.98025799046136]
Merge-And-GuidEは、ガイド付きデコーディングにモデルマージを利用する2段階のフレームワークである。
ステージ1では、MAGEはガイダンスとベースモデルの互換性の問題を解決する。
ステージ2では、明示的で暗黙的な値モデルを統一的なガイダンスプロキシにマージします。
論文 参考訳(メタデータ) (2025-10-04T11:10:07Z) - A Rolling Stone Gathers No Moss: Adaptive Policy Optimization for Stable Self-Evaluation in Large Multimodal Models [4.417707977122247]
本稿では,学習目標をリアルタイムで適応的に調整できるオンライン強化学習フレームワークであるAdaPOを提案する。
その結果,本手法は直接推論と自己評価能力の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-05T07:54:01Z) - Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。
本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文 参考訳(メタデータ) (2025-01-10T04:35:46Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。