論文の概要: GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2511.11134v1
- Date: Fri, 14 Nov 2025 10:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.532595
- Title: GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models
- Title(参考訳): GGBench: 統一マルチモーダルモデルのための幾何学的生成推論ベンチマーク
- Authors: Jingxuan Wei, Caijun Jia, Xi Bai, Xinglong Xu, Siyuan Li, Linzhuang Sun, Bihui Yu, Conghui He, Lijun Wu, Cheng Tan,
- Abstract要約: GGBenchは幾何学的生成的推論を評価するために特別に設計されたベンチマークである。
それは、モデルが理解し、推論するだけでなく、積極的にソリューションを構築する能力を体系的に診断するための包括的なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 37.832076253514735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of Unified Multimodal Models (UMMs) signals a paradigm shift in artificial intelligence, moving from passive perception to active, cross-modal generation. Despite their unprecedented ability to synthesize information, a critical gap persists in evaluation: existing benchmarks primarily assess discriminative understanding or unconstrained image generation separately, failing to measure the integrated cognitive process of generative reasoning. To bridge this gap, we propose that geometric construction provides an ideal testbed as it inherently demands a fusion of language comprehension and precise visual generation. We introduce GGBench, a benchmark designed specifically to evaluate geometric generative reasoning. It provides a comprehensive framework for systematically diagnosing a model's ability to not only understand and reason but to actively construct a solution, thereby setting a more rigorous standard for the next generation of intelligent systems. Project website: https://opendatalab-raiser.github.io/GGBench/.
- Abstract(参考訳): 統一マルチモーダルモデル(UMMs)の出現は、受動的知覚からアクティブなクロスモーダル生成へと、人工知能のパラダイムシフトを示唆している。
既存のベンチマークは、主に差別的理解または制約のない画像生成を別々に評価し、生成的推論の統合的な認知過程を測定することができない。
このギャップを埋めるため,幾何学的構成は言語理解と正確な視覚生成の融合を本質的に要求する理想的なテストベッドを提供する。
GGBenchは幾何学的生成的推論を評価するためのベンチマークである。
それは、モデルが理解し、推論するだけでなく、積極的にソリューションを構築する能力を体系的に診断するための包括的なフレームワークを提供し、それによって、次世代のインテリジェントシステムに対してより厳密な標準を設定する。
プロジェクトサイト:https://opendatalab-raiser.github.io/GGBench/。
関連論文リスト
- UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? [50.92401586025528]
統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。
提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
論文 参考訳(メタデータ) (2026-03-03T18:36:16Z) - From Laboratory to Real-World Applications: Benchmarking Agentic Code Reasoning at the Repository Level [38.24989792739013]
本稿では,帰納的アサーション検証を中心とした診断ベンチマークであるRepoReasonを紹介する。
本研究では, 環境を意味として利用し, 地盤構造を再現する実行駆動型突然変異フレームワークを実装した。
我々の発見は、次世代のエージェントソフトウェアエンジニアリングを最適化するための、詳細なホワイトボックスの洞察を提供する。
論文 参考訳(メタデータ) (2026-01-07T09:22:28Z) - Generative Adversarial Gumbel MCTS for Abstract Visual Composition Generation [29.755551944026738]
幾何的プリミティブの集合の構成と関係によってアイデンティティが決定される抽象的視覚構成について検討する。
AlphaGoスタイルの検索は実現可能であり、微調整された視覚言語モデルは報酬信号としてセマンティックアライメントをスコアする。
ジェネレーティブ・アドバイサル・ネットワークにインスパイアされ、生成したインスタンスを敵の報酬改善に利用します。
論文 参考訳(メタデータ) (2025-12-01T03:38:44Z) - A Survey on Generative Recommendation: Data, Model, and Tasks [55.36322811257545]
ジェネレーティブ・レコメンデーションは、差別的なスコアではなく、世代としてのレコメンデーションを再認識する。
この調査は、データ、モデル、タスク次元にまたがる統合された三部構成のフレームワークを通じて包括的な調査を提供する。
世界知識の統合、自然言語理解、推論能力、スケーリング法則、創造的生成の5つの主要な利点を特定します。
論文 参考訳(メタデータ) (2025-10-31T04:02:58Z) - GIR-Bench: Versatile Benchmark for Generating Images with Reasoning [40.09327641816171]
統一マルチモーダルモデルは、画像理解と生成の両方で大きな言語モデルの推論能力を統合する。
textbfGIR-Benchは3つの相補的な視点で統一されたモデルを評価する包括的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-13T05:50:44Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - Riemannian-Geometric Fingerprints of Generative Models [10.098284109691138]
生成モデル(GM)のアーティファクトと指紋の新しい定義を提案する。
我々はこの理論を、実際に指紋を計算するための新しい勾配に基づくアルゴリズムに適用する。
結果は,2つの異なる解像度で4つの異なるデータセットにまたがって,GMの大規模な配列を識別する方が効果的であることを示している。
論文 参考訳(メタデータ) (2025-06-28T08:08:16Z) - NeSyGeo: A Neuro-Symbolic Framework for Multimodal Geometric Reasoning Data Generation [23.592137999309546]
NeSyGeoは、幾何学的推論データを生成するための新しいニューロシンボリックフレームワークである。
MLLMの幾何学的推論能力を評価するためのベンチマークNeSyGeo-Testをリリースする。
論文 参考訳(メタデータ) (2025-05-21T16:45:49Z) - MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO [87.52631406241456]
近年のテキスト・ツー・イメージシステムは、マルチモーダル入力や複雑な推論タスクの処理において制限に直面している。
我々は、強化学習による推論生成を取り入れ、これらの課題に対処する統合マルチモーダルな大規模言語モデルであるMind Omniを紹介する。
論文 参考訳(メタデータ) (2025-05-19T12:17:04Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Generalization Metrics for Practical Quantum Advantage in Generative
Models [68.8204255655161]
生成モデリングは量子コンピュータにとって広く受け入れられている自然のユースケースである。
我々は,アルゴリズムの一般化性能を計測して,生成モデリングのための実用的な量子優位性を探索する,単純で曖昧な手法を構築した。
シミュレーションの結果、我々の量子にインスパイアされたモデルは、目に見えない、有効なサンプルを生成するのに、最大で68倍の費用がかかります。
論文 参考訳(メタデータ) (2022-01-21T16:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。