論文の概要: Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement
- arxiv url: http://arxiv.org/abs/2603.06459v1
- Date: Fri, 06 Mar 2026 16:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.270228
- Title: Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement
- Title(参考訳): 基礎モデルは幾何学を知っているか? 連続的物理測定のための凍結特徴を探索する
- Authors: Yakov Pyotr Shkolnikov,
- Abstract要約: 視覚言語モデルは、それらのテキスト経路が表現できないような幾何学を符号化する。
ロラ微調整(r=16, 2,000枚)は、このギャップを6.5度に縮める。
これらの知見は、単一の凍結したバックボーンがマルチタスク幾何学的センサーとして機能することを可能にした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models encode continuous geometry that their text pathway fails to express: a 6,000-parameter linear probe extracts hand joint angles at 6.1 degrees MAE from frozen features, while the best text output achieves only 20.0 degrees -- a 3.3x bottleneck. LoRA fine-tuning (r=16, 2,000 images) narrows this gap to 6.5 degrees, providing evidence for a pathway-training deficit rather than a representational one. Training objective determines accuracy more than architecture: five encoders spanning self-supervised, contrastive, and hybrid paradigms converge to statistically equivalent accuracy (R^2 approximately 0.55, TOST-equivalent at delta=0.03) despite sharing as little as CKA=0.41 representational similarity -- functional convergence without representational convergence. Autoregressive generation damages geometric fidelity, but the damage originates in the generation process, not in language alignment: Qwen2.5-VL's LLM layers actually improve probe accuracy over its raw vision encoder. Layer-wise analysis reveals a universal mid-network accuracy peak across all architectures, with attention heads in layers 18-22 carrying disproportionate geometric signal. These findings enable a single frozen backbone to function as a multi-task geometric sensor through lightweight probes, without fine-tuning or text generation.
- Abstract(参考訳): 6000パラメータの線形プローブは、凍結した特徴から6.1° MAEで手関節角を抽出し、最高のテキスト出力はわずか20.0°で、ボトルネックは3.3倍である。
ロラ微調整(r=16, 2,000画像)は、このギャップを6.5度に狭め、表現力ではなく経路学習障害の証拠となる。
自己監督、コントラスト、ハイブリッドパラダイムにまたがる5つのエンコーダは統計的に等価な精度(R^2 約 0.55, TOST-equivalent at delta=0.03)に収束する。
自己回帰生成は幾何学的忠実さを損なうが、その損傷は言語アライメントではなく生成過程に起因している: Qwen2.5-VLのLLM層は、実際の視覚エンコーダのプローブ精度を向上させる。
レイヤワイズ分析により、すべてのアーキテクチャで共通の中間ネットワーク精度がピークに達し、不均等な幾何学的信号を持つ18-22層に注意が向けられる。
これらの知見により、単一の冷凍バックボーンは、微調整やテキスト生成なしに、軽量プローブを介してマルチタスク幾何学センサーとして機能することができる。
関連論文リスト
- HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation [54.325346533275074]
HeROは、階層的意味論を通して幾何学と意味論を結合する拡散ベースのポリシーである。
様々なテストにおいて、HeROは新しい最先端技術を確立し、Place Dual Shoesの成功率を12.3%改善し、6つの挑戦的なポーズ対応タスクで平均6.5%向上した。
論文 参考訳(メタデータ) (2026-02-21T12:29:10Z) - GeoFocus: Blending Efficient Global-to-Local Perception for Multimodal Geometry Problem-Solving [55.14836667214487]
GeoFocusは、2つのコアモジュールからなる新しいフレームワークである。
GeoFocusは、主要な特殊モデルよりも4.7%の精度向上を実現している。
多様な視覚条件下でのMATHVERSEの強靭性を示す。
論文 参考訳(メタデータ) (2026-02-09T11:15:01Z) - The Confidence Manifold: Geometric Structure of Correctness Representations in Language Models [1.45309944076563]
5つのアーキテクチャファミリから9つのモデルにまたがる正しさの表現を特徴付ける。
我々はアクティベーションステアリングによる因果性評価を行った。
正確性信号は内部に存在するが、出力では表現されない。
論文 参考訳(メタデータ) (2026-02-08T23:27:10Z) - Tethered Reasoning: Decoupling Entropy from Hallucination in Quantized LLMs via Manifold Steering [0.0]
量子化言語モデルは基本的なジレンマに直面し、低いサンプリング温度は繰り返しモード崩壊した出力を発生させ、一方高温(T > 2.0)は軌道分岐と意味的不整合を引き起こす。
隠れ状態軌跡を事前に計算した真性多様体にテザリングすることで、幻覚から出力エントロピーを分離するフレームワークであるHELIXを提案する。
論文 参考訳(メタデータ) (2026-02-06T06:24:37Z) - On the Relationship Between Representation Geometry and Generalization in Deep Neural Networks [0.0]
教師なし幾何学的計量である有効次元が精度を強く予測することを示す。
ノイズによる幾何劣化は精度損失(r=-0.94, $p 10(9)$)を引き起こすが、PCAによる幾何改善はアーキテクチャ全体にわたる精度(95%のばらつきで-0.03pp)を維持する。
これらの結果は、有効次元が、ラベルなしで完全に計算されたニューラルネットワークの性能に関するドメインに依存しない予測および因果情報を提供することを証明している。
論文 参考訳(メタデータ) (2026-01-28T04:33:41Z) - Robust Mesh Saliency GT Acquisition in VR via View Cone Sampling and Geometric Smoothing [59.12032628787018]
バーチャルリアリティー(VR)における人中心視覚モデリングには3次元メッシュサリエンシ基底真理が不可欠である
現在のVRアイトラッキングパイプラインは、単一線サンプリングとユークリッドのスムース化に依存しており、テクスチャの注意を喚起し、ギャップをまたいだ信号の漏洩を引き起こす。
本稿では,これらの制約に対処する頑健な枠組みを提案する。
論文 参考訳(メタデータ) (2026-01-06T05:20:12Z) - Geometric Latent Space Tomography with Metric-Preserving Autoencoders [0.0]
本稿では,古典的ニューラルエンコーダとパラメータ化量子回路デコーダを組み合わせた幾何学的潜時空間トモグラフィーを提案する。
我々の幾何対応潜在空間は、ユークリッド距離からの直接状態の判別、およびフルトモグラフィーを繰り返すことなく量子エラー軽減のための解釈可能な誤差を可能にする。
論文 参考訳(メタデータ) (2025-12-16T20:18:10Z) - SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation [63.48859753472547]
SpaceActorは、意味論と幾何学を明確に分離する堅牢なロボット操作のためのフレームワークである。
RLBenchの87.4%で最先端のパフォーマンスを達成し、ノイズの異なる条件下では13.9%から19.4%改善している。
論文 参考訳(メタデータ) (2025-11-12T18:59:08Z) - GeLoc3r: Enhancing Relative Camera Pose Regression with Geometric Consistency Regularization [44.00455492098006]
ReLoc3Rは、高速な25msの推論と最先端のレグレッション精度でブレークスルー性能を達成する。
GeLoc3rは、幾何整合正則化によるポーズ回帰手法を強化する、相対カメラポーズ推定の新しいアプローチである。
論文 参考訳(メタデータ) (2025-09-27T01:21:38Z) - LaRI: Layered Ray Intersections for Single-view 3D Geometric Reasoning [75.9814389360821]
層状光線交差(LaRI)は、1つの画像から未知の幾何学的推論を行う新しい方法である。
コンパクトで階層的な表現から恩恵を受けることで、LaRIは完全で効率的でビュー整合な幾何学的推論を可能にする。
3Dオブジェクトやシーンを含む、合成および実世界のデータのための完全なトレーニングデータ生成パイプラインを構築します。
論文 参考訳(メタデータ) (2025-04-25T15:31:29Z) - Analytic Signal Phase in $N-D$ by Linear Symmetry Tensor--fingerprint
modeling [69.35569554213679]
解析信号位相とその勾配は2-D$以上の不連続性を持つことを示す。
この欠点は深刻なアーティファクトをもたらす可能性があるが、問題は1-D $シグナルには存在しない。
本稿では,複数のGaborフィルタに頼って線形シンメトリー位相を用いることを提案する。
論文 参考訳(メタデータ) (2020-05-16T21:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。