論文の概要: VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL
- arxiv url: http://arxiv.org/abs/2505.23977v1
- Date: Thu, 29 May 2025 20:08:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.649127
- Title: VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL
- Title(参考訳): VisualSphinx: RL用の大規模合成視覚論理パズル
- Authors: Yichen Feng, Zhangchen Xu, Fengqing Jiang, Yuetai Li, Bhaskar Ramasubramanian, Luyao Niu, Bill Yuchen Lin, Radha Poovendran,
- Abstract要約: 大規模合成視覚論理推論学習データであるVisualSphinxを提案する。
そこで本研究では,画像合成の課題を解決するために,ルール・ツー・イメージ合成パイプラインを提案する。
実験により、VisualSphinx上でGRPOを使用してトレーニングされたVLMは、私たちのデータセットの論理的一貫性と可読性から恩恵を受けることが示された。
- 参考スコア(独自算出の注目度): 11.10804309162152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language models (VLMs) are expected to perform effective multimodal reasoning and make logically coherent decisions, which is critical to tasks such as diagram understanding and spatial problem solving. However, current VLM reasoning lacks large-scale and well-structured training datasets. To bridge this gap, we propose VisualSphinx, a first-of-its-kind large-scale synthetic visual logical reasoning training data. To tackle the challenge of image synthesis with grounding answers, we propose a rule-to-image synthesis pipeline, which extracts and expands puzzle rules from seed questions and generates the code of grounding synthesis image synthesis for puzzle sample assembly. Experiments demonstrate that VLM trained using GRPO on VisualSphinx benefit from logical coherence and readability of our dataset and exhibit improved performance on logical reasoning tasks. The enhanced reasoning capabilities developed from VisualSphinx also benefit other reasoning tasks such as algebraic reasoning, arithmetic reasoning and geometry reasoning.
- Abstract(参考訳): 視覚言語モデル(VLM)は、効率的なマルチモーダル推論を行い、論理的に一貫性のある決定を行うことが期待されている。
しかしながら、現在のVLM推論には大規模で構造化されたトレーニングデータセットが欠けている。
このギャップを埋めるため、我々はVisualSphinxを提案する。
画像合成の課題を解決するために,シード質問からパズルルールを抽出し,拡張するルール・ツー・イメージ合成パイプラインを提案し,パズルサンプル集合のためのグラウンドディング合成画像合成のコードを生成する。
実験により、VisualSphinx上でGRPOを使用してトレーニングしたVLMは、我々のデータセットの論理的コヒーレンスと可読性から恩恵を受けており、論理的推論タスクのパフォーマンスが向上していることが示された。
VisualSphinxから開発された拡張推論機能は、代数的推論、算術的推論、幾何学的推論といった他の推論タスクにもメリットがある。
関連論文リスト
- Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles [22.005722971314707]
本稿では、ジグソーパズルを構造化実験フレームワークとして用いたルールベースの視覚的RLについて包括的に研究する。
MLLMは、最初は単純なパズルのランダムな推測に近づき、ほぼ完璧な精度を達成し、微調整によって複雑で目に見えない構成に一般化する。
MLLMは、明確な推論の有無に関わらず学習し、一般化することができるが、オープンソースモデルは直接答えを好むことが多い。
論文 参考訳(メタデータ) (2025-05-29T16:01:22Z) - Decoupled Visual Interpretation and Linguistic Reasoning for Math Problem Solving [57.22004912994658]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - Learning Differentiable Logic Programs for Abstract Visual Reasoning [18.82429807065658]
微分フォワード推論は、勾配に基づく機械学習パラダイムと推論を統合するために開発された。
NEUMANNはグラフベースの微分可能フォワード推論器で、メッセージをメモリ効率のよい方法で送信し、構造化プログラムを関手で処理する。
NEUMANNは視覚的推論タスクを効率的に解き、神経、象徴的、神経-象徴的ベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-03T11:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。