論文の概要: Shape of Thought: Progressive Object Assembly via Visual Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2601.21081v1
- Date: Wed, 28 Jan 2026 22:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.456893
- Title: Shape of Thought: Progressive Object Assembly via Visual Chain-of-Thought
- Title(参考訳): 思考の形状:ビジュアル・チェーン・オブ・サートによるプログレッシブ・オブジェクト・アセンブリ
- Authors: Yu Huo, Siyu Zhang, Kun Zeng, Haoyue Liu, Owen Lee, Junlin Chen, Yuquan Lu, Yifu Guo, Yaodong Liang, Xiaoying Tang,
- Abstract要約: Shape-of-supervised (SoT) は、外部エンジンを使わずにコヒーレントな2Dプロジェクションによるプログレッシブな形状の組み立てを可能にするビジュアルフレームワークである。
SoTは、統合されたマルチモーダル自己回帰モデルをトレーニングし、インターリーブされたテキスト計画を生成し、中間状態をレンダリングすることで、明示的な幾何学的表現を生成することなく、形状・組立論理をキャプチャする。
SoT-26Kの微調整は、成分数の88.4%、構造トポロジーの84.8%を達成し、テキストのみのベースラインを約20%上回っている。
- 参考スコア(独自算出の注目度): 14.415233767300874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal models for text-to-image generation have achieved strong visual fidelity, yet they remain brittle under compositional structural constraints-notably generative numeracy, attribute binding, and part-level relations. To address these challenges, we propose Shape-of-Thought (SoT), a visual CoT framework that enables progressive shape assembly via coherent 2D projections without external engines at inference time. SoT trains a unified multimodal autoregressive model to generate interleaved textual plans and rendered intermediate states, helping the model capture shape-assembly logic without producing explicit geometric representations. To support this paradigm, we introduce SoT-26K, a large-scale dataset of grounded assembly traces derived from part-based CAD hierarchies, and T2S-CompBench, a benchmark for evaluating structural integrity and trace faithfulness. Fine-tuning on SoT-26K achieves 88.4% on component numeracy and 84.8% on structural topology, outperforming text-only baselines by around 20%. SoT establishes a new paradigm for transparent, process-supervised compositional generation. The code is available at https://anonymous.4open.science/r/16FE/. The SoT-26K dataset will be released upon acceptance.
- Abstract(参考訳): テキスト・ツー・イメージ生成のためのマルチモーダルモデルは、強い視覚的忠実さを達成しているが、構成的構造的制約(特に生成的数性、属性バインディング、部分レベル関係)の下では不安定なままである。
このような課題に対処するため、我々は外部エンジンを使わずにコヒーレントな2Dプロジェクションによるプログレッシブ形状の組み立てを可能にする視覚的CoTフレームワークであるShape-of-Thought (SoT)を提案する。
SoTは、統合されたマルチモーダル自己回帰モデルをトレーニングし、インターリーブされたテキスト計画を生成し、中間状態をレンダリングすることで、明示的な幾何学的表現を生成することなく、形状・組立論理をキャプチャする。
このパラダイムをサポートするために,部分ベースCAD階層から得られた大規模基盤組立トレースのデータセットであるSoT-26Kと,構造的整合性とトレース忠実性を評価するベンチマークであるT2S-CompBenchを紹介する。
SoT-26Kの微調整は、成分数の88.4%、構造トポロジーの84.8%を達成し、テキストのみのベースラインを約20%上回っている。
SoTは透明でプロセスが監督する合成生成のための新しいパラダイムを確立する。
コードはhttps://anonymous.4open.science/r/16FE/で公開されている。
SoT-26Kデータセットは受理時にリリースされる。
関連論文リスト
- StructAlign: Structured Cross-Modal Alignment for Continual Text-to-Video Retrieval [75.28673512571449]
Continual Text-to-Video Retrievalの重要な課題はフィーチャードリフトだ。
我々はCTVRのための構造化クロスモーダルアライメント手法であるStructAlignを提案する。
我々の手法は、常に最先端の連続検索手法より優れています。
論文 参考訳(メタデータ) (2026-01-28T13:34:44Z) - CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation [52.0601996237501]
Chain-of-Frame(CoF)推論はフレーム単位の視覚的推論を可能にする。
CoF-T2Iは、プログレッシブ・ビジュアル・リファインメントによるテキスト・ツー・イメージ(T2I)生成にCoF推論を統合する。
実験の結果、CoF-T2Iはベースビデオモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-15T04:33:06Z) - CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting [0.0]
人間は、クラスアイデンティティに頼るのではなく、視覚的反復と構造的関係を知覚することで、多種多様な物体を努力せずに数えることができる。
本研究では,クラスに依存しないオブジェクトカウントのための繰り返しと構造的コヒーレンスを認識することを学ぶトランスフォーマーベースのフレームワークであるCountFormerを紹介する。
論文 参考訳(メタデータ) (2025-10-27T19:16:02Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - Progressive Tree-Structured Prototype Network for End-to-End Image
Captioning [74.8547752611337]
本稿では,新しいプログレッシブツリー構造型プロトタイプネットワーク(PTSN)を提案する。
PTSNは、階層的テキスト意味論をモデル化することによって、適切な意味論で予測語の範囲を狭める最初の試みである。
提案手法は,144.2%(シングルモデル),146.5%(4モデルのアンサンブル),141.4%(c5),143.9%(c40)のCIDErを公式オンラインテストサーバ上でスコアする。
論文 参考訳(メタデータ) (2022-11-17T11:04:00Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。