論文の概要: PhyDrawGen: Physically Grounded Diagram Generation from Natural Language
- arxiv url: http://arxiv.org/abs/2605.30512v1
- Date: Thu, 28 May 2026 19:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.201738
- Title: PhyDrawGen: Physically Grounded Diagram Generation from Natural Language
- Title(参考訳): PhyDrawGen: 自然言語から物理接地ダイアグラムを生成する
- Authors: Nafiul Haque, Syed Nazmus Sakib, Shifat E Arman,
- Abstract要約: PhyDrawGenは、物理的な制約満足度からセマンティックシーン理解を分離する、ニューロシンボリックパイプラインである。
GPT-5-image、Gemini 2.5 Flash、Gemini 3 Proをはるかに上回り、異常な物体問題でも堅牢な物理的精度を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generating physics diagrams from text requires strict adherence to physical laws. While current generative models produce visually plausible outputs, they systematically hallucinate force vectors, ignore conservation laws, and violate geometric constraints. We present PhyDrawGen, a neuro-symbolic pipeline that decouples semantic scene understanding from physical constraint satisfaction. First, a large language model extracts a typed scene graph from the problem text. A deterministic solver then converts this graph into a Planar Straight-Line Graph (PSLG), encoding force balance, optical paths, and field topologies as exact geometric primitives. Finally, a fine-tuned Qwen-VL model implements a visually grounded propose-verify loop to iteratively correct any constraint violations. Evaluated on a benchmark of 1,449 problems spanning mechanics, optics, and electromagnetism, PhyDrawGen significantly outperforms GPT-5-image, Gemini 2.5 Flash, and Gemini 3 Pro, demonstrating robust physical accuracy even on unusual-object problems.
- Abstract(参考訳): テキストから物理図を生成するには、物理法則に厳格に従わなければならない。
現在の生成モデルは視覚的に可視な出力を生成するが、それらは系統的に力ベクトルを幻覚させ、保存法則を無視し、幾何学的制約に違反している。
本稿では,身体的制約満足度からセマンティックシーン理解を分離するニューロシンボリックパイプラインであるPhyDrawGenを紹介する。
まず、大きな言語モデルが問題テキストから型付きシーングラフを抽出する。
決定論的解法は、このグラフをPlanar Straight-Line Graph (PSLG) に変換し、力のバランス、光学経路、および場位相を正確な幾何学的プリミティブとして符号化する。
最後に、微調整されたQwen-VLモデルでは、任意の制約違反を反復的に修正するために、視覚的に根拠付けられた提案検証ループを実装している。
PhyDrawGenはGPT-5-image、Gemini 2.5 Flash、およびGemini 3 Proを著しく上回り、異常な物体問題でも堅牢な物理的精度を示す。
関連論文リスト
- THOM: Generating Physically Plausible Hand-Object Meshes From Text [44.69476210110844]
テキストからの3Dハンドオブジェクトインタラクション(HOIs)の生成は,ロボットの器用な把握とVR/ARコンテンツ生成に不可欠である。
我々は、テンプレートオブジェクトメッシュを必要とせずに、フォトリアリスティックで物理的に可視な3D HOIメッシュを生成する、トレーニング不要のフレームワークであるTHOMを紹介した。
THOMは、テキストアライメント、視覚リアリズム、相互作用の可視性の観点から、最先端の手法を一貫して超越している。
論文 参考訳(メタデータ) (2026-04-03T05:17:12Z) - PhysGraph: Physically-Grounded Graph-Transformer Policies for Bimanual Dexterous Hand-Tool-Object Manipulation [15.661420962372441]
既存のメソッドは、システム全体の状態を単一の構成ベクタとしてネガリックに表現する。
本稿では,PhysGraphについて述べる。PhysGraphは2次元手動オブジェクト操作に挑戦する物理グラウンドグラフトランスフォーマポリシーである。
論文 参考訳(メタデータ) (2026-03-02T04:32:20Z) - Compressive Recovery of Signals Defined on Perturbed Graphs [4.021249101488848]
本稿では, 圧縮測定から同時に信号を復元し, グラフ摂動を補正するアルゴリズムを提案する。
また、圧縮画像再構成への応用として、グラフ摂動を所望のグラフエッジとしてモデル化し、画素を大きな強度差でリンクする。
論文 参考訳(メタデータ) (2024-02-12T13:20:52Z) - A Graph is Worth $K$ Words: Euclideanizing Graph using Pure Transformer [47.25114679486907]
我々は、非ユークリッドグラフを学習可能なグラフワードに変換するGraph2Seqエンコーダを特徴とするGraphsGPTを紹介する。
GraphGPTデコーダは、元のグラフをGraph Wordsから再構成し、情報等価性を保証する。
論文 参考訳(メタデータ) (2024-02-04T12:29:40Z) - ADA-GAD: Anomaly-Denoised Autoencoders for Graph Anomaly Detection [84.0718034981805]
我々はAnomaly-Denoized Autoencoders for Graph Anomaly Detection (ADA-GAD)という新しいフレームワークを導入する。
第1段階では,異常レベルを低減したグラフを生成する学習自由な異常化拡張法を設計する。
次の段階では、デコーダは元のグラフで検出するために再訓練される。
論文 参考訳(メタデータ) (2023-12-22T09:02:01Z) - Learning Physical Dynamics with Subequivariant Graph Neural Networks [99.41677381754678]
グラフニューラルネットワーク(GNN)は、物理力学を学習するための一般的なツールとなっている。
物理法則は、モデル一般化に必須な帰納バイアスである対称性に従属する。
本モデルは,RigidFall上でのPhysylonと2倍低ロールアウトMSEの8つのシナリオにおいて,平均3%以上の接触予測精度の向上を実現している。
論文 参考訳(メタデータ) (2022-10-13T10:00:30Z) - Explanation Graph Generation via Pre-trained Language Models: An
Empirical Study with Contrastive Learning [84.35102534158621]
エンドツーエンドで説明グラフを生成する事前学習言語モデルについて検討する。
本稿では,ノードとエッジの編集操作によるグラフ摂動の簡易かつ効果的な方法を提案する。
提案手法は,説明グラフの構造的精度と意味的精度を両立させる。
論文 参考訳(メタデータ) (2022-04-11T00:58:27Z) - Equivariant Graph Mechanics Networks with Constraints [83.38709956935095]
本稿では,グラフ力学ネットワーク(GMN)を提案する。
GMNは、一般化された座標により、構造体の前方運動学情報(位置と速度)を表す。
大規模な実験は、予測精度、制約満足度、データ効率の観点から、最先端のGNNと比較してGMNの利点を支持する。
論文 参考訳(メタデータ) (2022-03-12T14:22:14Z) - My Body is a Cage: the Role of Morphology in Graph-Based Incompatible
Control [65.77164390203396]
本稿では,グラフにエンコードされた形態情報により,その性能が向上しないことを示す既存手法に関する一連のアブリケーションを示す。
グラフ構造からGNNが抽出した利益は、メッセージパッシングのために生じる困難によって上回っているという仮説により、Amorpheusも提案する。
論文 参考訳(メタデータ) (2020-10-05T08:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。