論文の概要: Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles
- arxiv url: http://arxiv.org/abs/2505.23590v2
- Date: Mon, 02 Jun 2025 09:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.066139
- Title: Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles
- Title(参考訳): Jigsaw-R1: Jigsaw Puzzlesによるルールベースのビジュアル強化学習の研究
- Authors: Zifu Wang, Junyi Zhu, Bo Tang, Zhiyu Li, Feiyu Xiong, Jiaqian Yu, Matthew B. Blaschko,
- Abstract要約: 本稿では、ジグソーパズルを構造化実験フレームワークとして用いて、ルールベースの視覚的RLについて包括的に研究する。
Jigsawのパズルは、固有の真実、調整可能な困難、複雑な意思決定を要求する。
MLLMは、最初は最も単純なジグソーパズルのランダムな推測に近づき、ほぼ完璧な精度を達成し、微調整によって複雑で目に見えない構成に一般化する。
- 参考スコア(独自算出の注目度): 22.005722971314707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of rule-based reinforcement learning (RL) to multimodal large language models (MLLMs) introduces unique challenges and potential deviations from findings in text-only domains, particularly for perception-heavy tasks. This paper provides a comprehensive study of rule-based visual RL, using jigsaw puzzles as a structured experimental framework. Jigsaw puzzles offer inherent ground truth, adjustable difficulty, and demand complex decision-making, making them ideal for this study. Our research reveals several key findings: \textit{Firstly,} we find that MLLMs, initially performing near to random guessing on the simplest jigsaw puzzles, achieve near-perfect accuracy and generalize to complex, unseen configurations through fine-tuning. \textit{Secondly,} training on jigsaw puzzles can induce generalization to other visual tasks, with effectiveness tied to specific task configurations. \textit{Thirdly,} MLLMs can learn and generalize with or without explicit reasoning, though open-source models often favor direct answering. Consequently, even when trained for step-by-step reasoning, they can ignore the thinking process in deriving the final answer. \textit{Fourthly,} we observe that complex reasoning patterns appear to be pre-existing rather than emergent, with their frequency increasing alongside training and task difficulty. \textit{Finally,} our results demonstrate that RL exhibits more effective generalization than Supervised Fine-Tuning (SFT), and an initial SFT cold start phase can hinder subsequent RL optimization. Although these observations are based on jigsaw puzzles and may vary across other visual tasks, this research contributes a valuable piece of jigsaw to the larger puzzle of collective understanding rule-based visual RL and its potential in multimodal learning. The code is available at: https://github.com/zifuwanggg/Jigsaw-R1.
- Abstract(参考訳): ルールベース強化学習(RL)のマルチモーダル大言語モデル(MLLM)への適用は、テキストのみの領域、特に知覚量の多いタスクにおける発見からの独特な課題と潜在的な逸脱をもたらす。
本稿では、ジグソーパズルを構造化実験フレームワークとして用いて、ルールベースの視覚的RLについて包括的に研究する。
Jigsawのパズルは、本質的な真実、調整可能な難易度、複雑な意思決定を要求するもので、この研究には理想的です。
MLLMは、最初は最も単純なジグソーパズルのランダムな推測に近づき、ほぼ完璧な精度を達成し、微調整によって複雑で目に見えない構成に一般化する。
\textit{Secondly,} ジグソーパズルのトレーニングは、特定のタスク構成に関連付けられて、他の視覚的タスクへの一般化を誘導することができる。
\textit{Thirdly,} MLLMは、明示的な推論の有無に関わらず学習し、一般化することができるが、オープンソースモデルは直接答えを好むことが多い。
したがって、ステップバイステップの推論のために訓練されたとしても、最終的な答えを導き出す際に思考プロセスを無視することができる。
複雑な推論パターンは創発的ではなく存在しており、その頻度はトレーニングやタスクの難易度とともに増加する。
この結果から, RL は Supervised Fine-Tuning (SFT) よりも効率的な一般化を示し, 初期 SFT 冷間開始相はその後の RL 最適化を阻害することを示した。
これらの観察は、ジグソーパズルに基づいており、他の視覚的タスクによって異なる可能性があるが、この研究は、集合的理解ルールに基づく視覚的RLと、そのマルチモーダル学習におけるポテンシャルのより大きなパズルに、ジグソーの貴重なピースを寄与している。
コードは、https://github.com/zifuwanggg/Jigsaw-R1.comで入手できる。
関連論文リスト
- Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。
評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。
本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-03-30T20:03:36Z) - VGRP-Bench: Visual Grid Reasoning Puzzle Benchmark for Large Vision-Language Models [31.645103181716678]
LVLM(Large Vision-Language Models)は、正確な認識、ルール理解、論理的推論を必要とするパズルと競合する。
VGRP-Benchは、20種類のパズルを特徴とするVisual Grid Reasoning Puzzle Benchmarkである。
以上の結果から,現在最先端のLVLMでさえこれらのパズルに苦戦していることが明らかとなり,パズル解法の基本的限界が浮き彫りになった。
論文 参考訳(メタデータ) (2025-03-29T12:50:38Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning [26.680686158061192]
推論は大規模言語モデル(LLM)の基本機能である
本稿では,テキストベースのゲームで LLM を評価するためのベンチマークである TextGames を紹介する。
以上の結果から,LSMは最も容易かつ中程度の問題に対処する能力を示すが,より困難な課題に直面することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-25T18:26:48Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Sliding Puzzles Gym: A Scalable Benchmark for State Representation in Visual Reinforcement Learning [3.8309622155866583]
Sliding Puzzles Gym (SPGym) は、従来の8タイルパズルを任意に大きなデータセットから得られる画像の視覚的観察空間で再現する新しいベンチマークである。
SPGymは、視覚多様性を通じて表現複雑性を正確に制御し、研究者が表現学習課題を体系的にスケールできるようにする。
可能な画像のプールを広げることで、視覚的多様性が増すにつれて、テスト対象のアルゴリズムはすべて、大幅な性能劣化を示す。
論文 参考訳(メタデータ) (2024-10-17T21:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。