論文の概要: Socratic-Geo: Synthetic Data Generation and Geometric Reasoning via Multi-Agent Interaction
- arxiv url: http://arxiv.org/abs/2602.03414v1
- Date: Tue, 03 Feb 2026 11:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.420855
- Title: Socratic-Geo: Synthetic Data Generation and Geometric Reasoning via Multi-Agent Interaction
- Title(参考訳): Socratic-Geo:マルチエージェントインタラクションによる合成データ生成と幾何学的推論
- Authors: Zhengbo Jiao, Shaobo Wang, Zifan Zhang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang,
- Abstract要約: Socratic-Geoは、マルチエージェントインタラクションを通じてデータ合成とモデル学習を結合する、完全に自律的なフレームワークである。
Socratic-rは6つのベンチマークで4分の1のベースラインデータを使用して49.11を達成し、強いベースラインを2.43ポイント上回る。
Socratic-GeneratorはGenExamで42.4%を達成した。
- 参考スコア(独自算出の注目度): 11.021067780524348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have significantly advanced vision-language understanding. However, even state-of-the-art models struggle with geometric reasoning, revealing a critical bottleneck: the extreme scarcity of high-quality image-text pairs. Human annotation is prohibitively expensive, while automated methods fail to ensure fidelity and training effectiveness. Existing approaches either passively adapt to available images or employ inefficient random exploration with filtering, decoupling generation from learning needs. We propose Socratic-Geo, a fully autonomous framework that dynamically couples data synthesis with model learning through multi-agent interaction. The Teacher agent generates parameterized Python scripts with reflective feedback (Reflect for solvability, RePI for visual validity), ensuring image-text pair purity. The Solver agent optimizes reasoning through preference learning, with failure paths guiding Teacher's targeted augmentation. Independently, the Generator learns image generation capabilities on accumulated "image-code-instruction" triplets, distilling programmatic drawing intelligence into visual generation. Starting from only 108 seed problems, Socratic-Solver achieves 49.11 on six benchmarks using one-quarter of baseline data, surpassing strong baselines by 2.43 points. Socratic-Generator achieves 42.4% on GenExam, establishing new state-of-the-art for open-source models, surpassing Seedream-4.0 (39.8%) and approaching Gemini-2.5-Flash-Image (43.1%).
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚言語に対する理解が著しく進歩している。
しかし、最先端のモデルでさえ幾何学的推論に苦しむため、重要なボトルネックが浮かび上がっている。
人間のアノテーションは違法に高価であり、自動化された手法は忠実さとトレーニングの有効性を保証するのに失敗する。
既存のアプローチは、利用可能な画像に受動的に適応するか、フィルタリングによる非効率なランダム探索を採用するか、学習ニーズから生成を分離する。
マルチエージェントインタラクションによるモデル学習とデータ合成を動的に結合する,完全に自律的なフレームワークであるSocratic-Geoを提案する。
教師エージェントは、パラメータ化されたPythonスクリプトを反射フィードバックで生成する(可解性はReflect、視覚的妥当性はRePI)。
ソルバーエージェントは、教師が対象とする増補を導く障害経路を用いて、選好学習による推論を最適化する。
独立して、ジェネレータは蓄積した「イメージ・コード・インストラクション(image-code-instruction)」三重項の画像生成機能を学び、プログラムによる描画インテリジェンスを視覚的に生成する。
わずか108の種問題から始めて、ソクラティック・ソルバーはベースラインデータの4分の1を使用して6つのベンチマークで49.11を達成し、強いベースラインを2.43ポイント越えている。
Socratic-Generator は GenExam で 42.4% を獲得し、Seedream-4.0 (39.8%) を超え、Gemini-2.5-Flash-Image (43.1%) に近づいた。
関連論文リスト
- GenAgent: Scaling Text-to-Image Generation via Agentic Multimodal Reasoning [54.42973725693]
我々は,エージェント型マルチモーダルモデルを用いて,視覚的理解と生成を統一したGenAgentを導入する。
GenAgentはGenEval++とWISEのベースジェネレータ(FLUX.1-dev)のパフォーマンスを大幅に向上させる。
本フレームワークは,1) 様々な機能を持つジェネレータへのクロスツール一般化,2) インタラクションラウンド間で一貫した改善を伴うテスト時間スケーリング,3) タスクに自動的に適応するタスク適応推論の3つの重要な特性を示す。
論文 参考訳(メタデータ) (2026-01-26T14:49:04Z) - Iterative Refinement Improves Compositional Image Generation [47.116050084875106]
Text-to-image (T2I)モデルは、複数のオブジェクト、リレーション、属性を同時に扱う必要がある複雑なプロンプトと競合する。
本稿では,T2Iモデルを複数のステップで段階的に改良する反復的テストタイム戦略を提案する。
われわれのアプローチは単純で、外部ツールや事前は必要とせず、幅広い画像生成器や視覚言語モデルに柔軟に適用できる。
論文 参考訳(メタデータ) (2026-01-21T18:59:40Z) - A Multimodal, Multitask System for Generating E Commerce Text Listings from Images [0.0]
本稿では,1つの画像から現実的なテキストリストを生成するエンド・ツー・エンドマルチタスクシステムを提案する。
階層的な生成プロセスは非常に効果的であることが証明され、事実の幻覚率を12.7%から7.1%に下げる。
1つの小さな欠点は、ROUGE-Lスコアで直接視覚から言語へのモデルよりも3.5%悪い性能を発揮することである。
論文 参考訳(メタデータ) (2025-10-22T11:50:49Z) - GenView++: Unifying Adaptive View Generation and Quality-Driven Supervision for Contrastive Representation Learning [71.47606279139679]
GenView++はイメージベースのコントラスト学習のための統合フレームワークである。
多様なセマンティック・コヒーレントなビューを合成するマルチソース適応ビュー生成機構を導入する。
品質駆動型コントラスト学習機構は、各ペアのセマンティックアライメントと多様性を評価して、トレーニングコントリビューションを動的にリウェイトする。
実験では、視覚と視覚言語の両方のタスクにおけるGenView++の有効性が示されている。
論文 参考訳(メタデータ) (2025-09-28T09:35:37Z) - Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation [110.03631978640298]
本稿では,視覚領域に次世代の予測パラダイムを適用するメカニズムについて,初めて体系的に検討する。
高レベルの視覚的意味論の学習を妨げる3つの重要な特性を同定する。
これらの課題は、訓練中に自己指導的目的を導入することで効果的に対処できることが示される。
論文 参考訳(メタデータ) (2025-09-18T17:47:40Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples [34.71588837946776]
視覚言語合成推論を改善するためのフレームワークであるCounterCurateを提案する。
特に、物理的根拠に基づく推論の無視という、2つの重要な未探索問題を特定する。
私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。
次に、グラウンドド画像生成モデルGLIGENを用いて単純なデータ拡張を適用し、微調整データを生成する。
論文 参考訳(メタデータ) (2024-02-20T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。