Fugu-MT 論文翻訳(概要): TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning

論文の概要: TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning

arxiv url: http://arxiv.org/abs/2601.16520v1
Date: Fri, 23 Jan 2026 07:35:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-26 14:27:27.595395
Title: TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning
Title（参考訳）: TangramPuzzle: 構成空間推論による多モーダル大言語モデルの評価
Authors: Daixian Liu, Jiayi Kuang, Yinghui Li, Yangning Li, Di Yin, Haoyu Cao, Xing Sun, Ying Shen, Hai-Tao Zheng, Liang Lin, Philip S. Yu,
Abstract要約: 古典的タングラムゲームのレンズを通して構成空間推論を評価するために,幾何グラウンドのベンチマークを導入する。本稿では,タングラム集合を正確に機械で検証可能な座標仕様でグルーピングする記号幾何学的枠組みであるタングラム構成式(TCE)を提案する。 MLLMは、幾何学的制約を無視しながら、ターゲットのシルエットとのマッチングを優先する傾向がある。
参考スコア（独自算出の注目度）: 104.66714520975837
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable progress in visual recognition and semantic understanding. Nevertheless, their ability to perform precise compositional spatial reasoning remains largely unexplored. Existing benchmarks often involve relatively simple tasks and rely on semantic approximations or coarse relative positioning, while their evaluation metrics are typically limited and lack rigorous mathematical formulations. To bridge this gap, we introduce TangramPuzzle, a geometry-grounded benchmark designed to evaluate compositional spatial reasoning through the lens of the classic Tangram game. We propose the Tangram Construction Expression (TCE), a symbolic geometric framework that grounds tangram assemblies in exact, machine-verifiable coordinate specifications, to mitigate the ambiguity of visual approximation. We design two complementary tasks: Outline Prediction, which demands inferring global shapes from local components, and End-to-End Code Generation, which requires solving inverse geometric assembly problems. We conduct extensive evaluation experiments on advanced open-source and proprietary models, revealing an interesting insight: MLLMs tend to prioritize matching the target silhouette while neglecting geometric constraints, leading to distortions or deformations of the pieces.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、視覚認識と意味理解において顕著な進歩を遂げている。しかし、正確な合成空間推論を行う能力は、まだ明らかにされていない。既存のベンチマークは、しばしば比較的単純なタスクを伴い、意味論的近似や粗い相対的位置決めに依存するが、評価指標は通常限定的であり、厳密な数学的定式化が欠如している。このギャップを埋めるために,古典的タングラムゲームのレンズを通して構成空間推論を評価するために設計された幾何グラウンドのベンチマークであるTangramPuzzleを導入する。視覚近似の曖昧さを軽減するために,タングラムの集合を機械で検証可能な座標仕様でグルーピングする記号幾何学的枠組みであるタングラム構成式(TCE)を提案する。局所的な成分から大域的な形状を推定するアウトライン予測と,逆幾何学的組立問題を解くエンド・ツー・エンド・コード生成という2つの補完的なタスクを設計する。 MLLMは、幾何的制約を無視しながら、ターゲットのシルエットとのマッチングを優先し、部品の歪みや変形を引き起こす傾向がある。

関連論文リスト

PointCoT: A Multi-modal Benchmark for Explicit 3D Geometric Reasoning [82.55361351483005]
我々は,3次元データに対する明示的なチェーン・オブ・ソート(CoT)推論でMLLMを強化する新しいフレームワークであるPointCoTを提案する。両ストリームのマルチモーダルアーキテクチャを活用することで,幾何学的真理とセマンティックな外観を相乗化することができる。
論文参考訳（メタデータ） (2026-02-27T11:47:45Z)
Thinking with Geometry: Active Geometry Integration for Spatial Reasoning [68.59084007360615]
我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
論文参考訳（メタデータ） (2026-02-05T18:59:32Z)
Geometry of Decision Making in Language Models [19.74354232642455]
大規模言語モデル(LLM)は様々なタスクにまたがる強力な一般化を示すが、それらの予測の背後にある内部決定プロセスは不透明である。テクスト内在性次元(ID)のレンズを用いたLLMにおける隠れ表現の幾何学について検討する。我々は28個のオープンウェイトトランスモデルを用いて大規模研究を行い、複数の推定器を用いて層間IDを推定する。
論文参考訳（メタデータ） (2025-11-25T13:52:46Z)
GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions [45.70578816057097]
本稿では,幾何学的問題に対するReferring Expression (REC) の課題を紹介する。 RECは、テキストのプロンプトに応じて図形の点、形、空間関係をローカライズできるかどうかを評価する。構造化幾何形式言語を用いた大規模合成学習データセットを生成する。
論文参考訳（メタデータ） (2025-09-25T12:00:52Z)
Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文参考訳（メタデータ） (2025-05-27T09:05:28Z)
GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs [7.605833826892782]
本稿では,従来の数学的推論の複雑さではなく,幾何学的複雑性を考慮した3段階分類によって整理された500の精巧な問題のベンチマークを示す。 17個のフロンティアLSMの総合的な評価により,一貫性と顕著な欠陥が明らかとなった。これらの結果は、プログラム駆動型空間推論によって引き起こされる独特な課題を浮き彫りにし、シンボル-空間幾何学的推論の研究を進めるための貴重な資源としてGeoGramBenchを確立した。
論文参考訳（メタデータ） (2025-05-23T09:17:07Z)
MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。 MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文参考訳（メタデータ） (2025-03-26T17:30:41Z)
GePBench: Evaluating Fundamental Geometric Perception for Multimodal Large Language Models [34.647839550142834]
本稿では,MLLMの幾何学的知覚能力を評価するための新しいベンチマークであるGePBenchを紹介する。評価の結果,現在最先端のMLLMは幾何学的知覚タスクに重大な欠陥があることが明らかとなった。 GePBenchデータを用いてトレーニングしたモデルは、幅広いベンチマークタスクにおいて大幅に改善されていることを示す。
論文参考訳（メタデータ） (2024-12-30T16:01:43Z)
RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文参考訳（メタデータ） (2023-10-18T07:30:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。