論文の概要: Miller-Index-Based Latent Crystallographic Fracture Plane Reasoning and generation with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.20416v2
- Date: Sun, 24 May 2026 16:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.766611
- Title: Miller-Index-Based Latent Crystallographic Fracture Plane Reasoning and generation with Vision-Language Models
- Title(参考訳): ミラーインデックスによるラテント結晶構造破壊面の共鳴とビジョンランゲージモデルによる生成
- Authors: Qinwu Xu, Xiaofu Ma, Yifan Jiang,
- Abstract要約: 本研究では, マルチモーダル大規模言語モデル (MLLM) が, フラクチャー幾何学的推論のための構造的潜在表現として結晶面指標 (Miller indices) を活用できるかどうかを検討した。
MLLMは、理想化された設定で遅延推論を確実に実行でき、基礎となる物理がそれをサポートしない場合、遅延表現を拒否できることを示す。
- 参考スコア(独自算出の注目度): 4.650392958517514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study whether multimodal large language models (MLLMs) can leverage crystallographic plane indices (Miller indices) as a structured latent representation for reasoning about fracture geometry. We formulate Miller indices $z = (h,k,l)$ as a latent variable governing idealized planar fracture and evaluate two complementary capabilities: (i) latent inference, where the model maps visual observations to plane hypotheses under physically valid conditions, and (ii) latent applicability assessment, where the model determines whether such a representation is meaningful for a given fracture image. Through extensive experiments spanning synthetic data, controlled 2D--3D geometric pairs, and real-world fracture images across multiple material classes -- including ceramics, glass, metals, and concrete -- we show that MLLMs can reliably perform latent inference in idealized settings and, critically, can reject the latent representation when the underlying physics does not support it. As an exploratory extension, we further examine AI-generated fracture sequences and observe qualitatively plausible brittle-fracture progression behaviors, suggesting that multimodal generative models may encode partial implicit physical priors related to material failure dynamics. These results suggest that MLLMs can act as physics-aware reasoning systems conditioned on structured latent priors, provided that the domain of validity is explicitly modeled.
- Abstract(参考訳): 本研究では, マルチモーダル大規模言語モデル (MLLM) が, フラクチャー幾何学的推論のための構造的潜在表現として結晶面指標 (Miller indices) を活用できるかどうかを検討した。
Miller indices $z = (h,k,l)$ as a Latent variable ruling idealized Planar fracture を定式化し、2つの相補的能力を評価する。
一 物理的に妥当な条件下で、モデルが視覚観測を平面仮説にマッピングする潜時推論
2) 所定のフラクチャー画像に対してその表現が有意かどうかをモデルが決定する潜時適用性評価。
合成データ、制御された2D-3D幾何対、セラミック、ガラス、金属、コンクリートを含む複数の材料クラスにわたる実世界のフラクチャー画像を通じて、MLLMは理想化された環境で遅延推論を確実に実行でき、基礎となる物理がそれをサポートしない場合に潜時表現を拒否できることを示す。
探索的拡張として,AI生成したフラクチャーシーケンスを調べ,定性的に不安定なフラクチャー進行挙動を観察し,多モード生成モデルが物質破壊のダイナミクスに関連する部分的な物理的先行を符号化する可能性が示唆された。
これらの結果から,MLLMは論理的推論システムとして機能し,妥当性の領域が明示的にモデル化されることが示唆された。
関連論文リスト
- Coordinates of Capability: A Unified MTMM-Geometric Framework for LLM Evaluation [2.464003792743989]
本稿では,Large Language Models (LLMs) 評価のための汎用多言語多手法(MTMM)フレームワークを提案する。
パラフレーズ不安定度,ドリフトスコア,オーバートン幅,プラナリズムスコアの9つの評価指標を定式化し,共有潜在座標空間内の幾何的測度として解釈する。
タスク非関連摂動を真の能力の範囲から体系的に分離することにより、このフレームワークは、堅牢で経験的に安定したベンチマーク設計のために理論的に基礎とドメインに依存しない分類を提供する。
論文 参考訳(メタデータ) (2026-05-08T22:05:19Z) - Latent Structure of Affective Representations in Large Language Models [6.345340156849189]
大規模言語モデル(LLM)における感情表現の潜時構造を幾何学的データ解析ツールを用いて検討する。
まず, LLMは, 感情的感情のコヒーレントな潜在表現を学習し, 感情的感情を心理学的モデルから学習することを示す。
第二に、これらの表現は、しかしながら線形に十分に近似できる非線形幾何学的構造を示す。
第三に、学習した潜在表現空間を利用して感情処理タスクの不確かさを定量化できることを実証する。
論文 参考訳(メタデータ) (2026-04-08T02:13:48Z) - OMNIFLOW: A Physics-Grounded Multimodal Agent for Generalized Scientific Reasoning [51.33849811496781]
大規模言語モデル (LLM) は例外的な論理的推論能力を示しているが、部分微分方程式 (PDE) による連続力学としばしば競合する。
OMNIFLOWは, 領域固有のパラメータ更新を必要とせず, 基本物理法則で凍結LDMを基底として設計したマルチモーダルシンボリックアーキテクチャである。
我々は, 微視的乱流, 理論的ナビエ・ストークス, マクロ的世界天気予報のベンチマークでこれを評価した。
論文 参考訳(メタデータ) (2026-03-16T18:29:01Z) - SIGMA: Scalable Spectral Insights for LLM Collapse [51.863164847253366]
SIGMA(Spectral Inequalities for Gram Matrix Analysis)は,モデル崩壊のための統一的なフレームワークである。
行列のスペクトル上の決定論的境界を導出するベンチマークを利用することで、SIGMAは表現空間の収縮を追跡するために数学的に基底化された計量を提供する。
我々は、SIGMAが状態への遷移を効果的に捉え、崩壊のメカニズムに関する理論的知見の両方を提供することを示した。
論文 参考訳(メタデータ) (2026-01-06T19:47:11Z) - Stress-Testing Multimodal Foundation Models for Crystallographic Reasoning [2.172419551358714]
結晶学的推論の基礎モデルを評価するには、物理的な制約を課しながら一般化挙動を分離するベンチマークが必要である。
本研究では,ストレステスト型マルチモーダル生成モデルに対する2つの物理的基盤評価プロトコルを備えたマルチスケールマルチクリスタルデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-16T02:40:33Z) - When can isotropy help adapt LLMs' next word prediction to numerical domains? [53.98633183204453]
文脈埋め込み空間におけるLLM埋め込みの等方性は表現の基盤構造を保存することが示されている。
実験により、数値データとモデルアーキテクチャの異なる特性が等方性に異なる影響があることが示されている。
論文 参考訳(メタデータ) (2025-05-22T05:10:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。