論文の概要: Galaxy Walker: Geometry-aware VLMs For Galaxy-scale Understanding
- arxiv url: http://arxiv.org/abs/2503.18578v1
- Date: Mon, 24 Mar 2025 11:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:45.821872
- Title: Galaxy Walker: Geometry-aware VLMs For Galaxy-scale Understanding
- Title(参考訳): Galaxy Walker: 幾何学を意識した銀河理解用VLM
- Authors: Tianyu Chen, Xingcheng Fu, Yisen Gao, Haodong Qian, Yuecen Wei, Kun Yan, Haoyi Zhou, Jianxin Li,
- Abstract要約: 宇宙レベルの視覚理解タスクのための幾何学的視覚言語モデルであるGalaxy-Walkerを紹介する。
Galaxy-Walkerは、銀河特性の推定と形態分類のタスクで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 19.49455523407794
- License:
- Abstract: Modern vision-language models (VLMs) develop patch embedding and convolution backbone within vector space, especially Euclidean ones, at the very founding. When expanding VLMs to a galaxy scale for understanding astronomical phenomena, the integration of spherical space for planetary orbits and hyperbolic spaces for black holes raises two formidable challenges. a) The current pre-training model is confined to Euclidean space rather than a comprehensive geometric embedding. b) The predominant architecture lacks suitable backbones for anisotropic physical geometries. In this paper, we introduced Galaxy-Walker, a geometry-aware VLM, for the universe-level vision understanding tasks. We proposed the geometry prompt that generates geometry tokens by random walks across diverse spaces on a multi-scale physical graph, along with a geometry adapter that compresses and reshapes the space anisotropy in a mixture-of-experts manner. Extensive experiments demonstrate the effectiveness of our approach, with Galaxy-Walker achieving state-of-the-art performance in both galaxy property estimation ($R^2$ scores up to $0.91$) and morphology classification tasks (up to $+0.17$ F1 improvement in challenging features), significantly outperforming both domain-specific models and general-purpose VLMs.
- Abstract(参考訳): 現代の視覚言語モデル(VLM)は、ベクトル空間、特にユークリッド空間におけるパッチ埋め込みと畳み込みバックボーンを創始時に開発している。
VLMを銀河スケールに拡大して天文学的な現象を理解すると、惑星軌道の球面空間とブラックホールの双曲空間の統合は、2つの重大な課題を提起する。
a) 現在の事前学習モデルは、包括的幾何学的埋め込みよりもユークリッド空間に限られる。
b) 支配的なアーキテクチャは異方性物理測地に適したバックボーンを欠いている。
本稿では,宇宙レベルの視覚理解タスクのための幾何学的VLMであるGalaxy-Walkerを紹介した。
我々は,多スケールな物理グラフ上の様々な空間をランダムに歩くことで幾何学的トークンを生成する幾何学的プロンプトと,その空間異方性を圧縮・再認識する幾何学的アダプタを提案する。
銀河特性推定(R^2$スコア最大0.91ドル)と形態素分類タスク(最大$+0.17$F1の改善)の両方において、Galaxy-Walkerが最先端の性能を達成し、ドメイン固有モデルと汎用VLMの両方を著しく上回り、我々のアプローチの有効性を実証した。
関連論文リスト
- Effective Fine-Tuning of Vision-Language Models for Accurate Galaxy Morphology Analysis [3.379005517804234]
GalaxAlignは、天文学的なタスクにおいて高い精度を達成するために、事前訓練された基礎モデルを微調整する新しい方法である。
本手法は,3種類のデータを微調整で整列させるために,コントラスト学習アーキテクチャを拡張した。
論文 参考訳(メタデータ) (2024-11-29T05:10:47Z) - Geometric deep learning for galaxy-halo connection: a case study for galaxy intrinsic alignments [1.2231689895452238]
我々は、IllustrisTNG-100シミュレーションに基づいて訓練された深部生成モデルを提案し、3次元銀河の形状と方位をサンプリングする。
このモデルは、参照シミュレーションと統計的に一致した銀河方位などの特徴を学習し、予測することができる。
論文 参考訳(メタデータ) (2024-09-27T13:55:10Z) - GeoMFormer: A General Architecture for Geometric Molecular Representation Learning [84.02083170392764]
我々はこの目的を達成するためにGeoMFormerと呼ばれるトランスフォーマーに基づく新しい分子モデルを導入する。
我々は,GeoMFormerが,異なる型やスケールの不変タスクと同変タスクの両方において,高い性能を達成することを示す。
論文 参考訳(メタデータ) (2024-06-24T17:58:13Z) - Spherinator and HiPSter: Representation Learning for Unbiased Knowledge Discovery from Simulations [0.0]
我々は、幅広いシミュレーションから有用な科学的洞察を得るための、新しい、偏見のない、機械学習に基づくアプローチについて説明する。
我々の概念は、低次元空間におけるデータのコンパクトな表現を学習するために非線形次元削減を適用することに基づいている。
本稿では、回転不変な超球面変動畳み込み自己エンコーダを用いて、潜時空間の電力分布を利用して、IllustrisTNGシミュレーションから銀河を訓練したプロトタイプを提案する。
論文 参考訳(メタデータ) (2024-06-06T07:34:58Z) - Understanding and Mitigating Hyperbolic Dimensional Collapse in Graph Contrastive Learning [70.0681902472251]
双曲空間における高品質グラフ埋め込みを学習するための新しいコントラスト学習フレームワークを提案する。
具体的には、階層的なデータ不変情報を効果的にキャプチャするアライメントメトリックを設計する。
双曲空間において、木の性質に関連する葉と高さの均一性に対処する必要があることを示す。
論文 参考訳(メタデータ) (2023-10-27T15:31:42Z) - Dynamic Hyperbolic Attention Network for Fine Hand-object Reconstruction [76.5549647815413]
ハイパボリック空間,すなわち動的ハイパボリック注意ネットワーク(DHANet)における最初の正確な手オブジェクト再構成手法を提案する。
本手法は,マルチモーダル情報によりメッシュ特性を学習し,手動物体の相互作用をより良くモデル化する。
論文 参考訳(メタデータ) (2023-09-06T13:00:10Z) - Knowledge-based Multiple Adaptive Spaces Fusion for Recommendation [35.20583774988951]
知識に基づく多重適応空間融合法(MCKG)を提案する。
特定の多様体のみを採用する既存の方法とは異なり、双曲的、ユークリッド的、球面的空間と互換性のある統一空間を導入する。
さらに,双曲空間と球面空間の両方から得られるプル・アンド・プッシュ処理を可能にする幾何対応最適化手法を提案する。
論文 参考訳(メタデータ) (2023-08-29T12:11:16Z) - Multi-scale Geometry-aware Transformer for 3D Point Cloud Classification [17.836838702265332]
本稿では,その変種であるMulti-scale Geometry-Aware Transformer (MGT)を用いた自己注意型プラグインモジュールを提案する。
MGTは、以下の3つの側面において、マルチスケールの局所的および大域的幾何学的情報をポイントクラウドデータとして処理する。
実験の結果,MGTは自己認識機構を用いてマルチスケール幾何を捕捉する能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-04-12T08:34:56Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Geometry Interaction Knowledge Graph Embeddings [153.69745042757066]
ユークリッド空間,双曲空間,超球空間間の空間構造を対話的に学習する幾何学的相互作用知識グラフ埋め込み(GIE)を提案する。
提案したGIEは、よりリッチなリレーショナル情報、モデルキー推論パターンをキャプチャし、エンティティ間の表現的セマンティックマッチングを可能にする。
論文 参考訳(メタデータ) (2022-06-24T08:33:43Z) - Concentric Spherical GNN for 3D Representation Learning [53.45704095146161]
同心球面特徴写像を学習するための新しい多解畳み込みアーキテクチャを提案する。
当社の階層的アーキテクチャは、球内情報と球間情報の両方を組み込むための代替学習に基づいています。
回転データを用いた3次元分類作業における最先端性能向上へのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-18T19:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。