論文の概要: Proximal Vision Transformer: Enhancing Feature Representation through Two-Stage Manifold Geometry
- arxiv url: http://arxiv.org/abs/2508.17081v1
- Date: Sat, 23 Aug 2025 16:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.330908
- Title: Proximal Vision Transformer: Enhancing Feature Representation through Two-Stage Manifold Geometry
- Title(参考訳): 近視変換器:2段マニフォールド幾何学による特徴表現の強化
- Authors: Haoyu Yun, Hamid Krim,
- Abstract要約: ビジョントランスフォーマー(ViT)はコンピュータビジョンにおいて広く認知され、その自己認識機構を活用して様々なタスクで顕著な成功を収めている。
本稿では,近位ツールとViTを統合した新しいフレームワークを提案し,統一的な幾何最適化手法を提案する。
実験結果から,提案手法は分類精度とデータ分布の点で従来のViTよりも優れていたことが確認された。
- 参考スコア(独自算出の注目度): 7.3623134099785155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Vision Transformer (ViT) architecture has become widely recognized in computer vision, leveraging its self-attention mechanism to achieve remarkable success across various tasks. Despite its strengths, ViT's optimization remains confined to modeling local relationships within individual images, limiting its ability to capture the global geometric relationships between data points. To address this limitation, this paper proposes a novel framework that integrates ViT with the proximal tools, enabling a unified geometric optimization approach to enhance feature representation and classification performance. In this framework, ViT constructs the tangent bundle of the manifold through its self-attention mechanism, where each attention head corresponds to a tangent space, offering geometric representations from diverse local perspectives. Proximal iterations are then introduced to define sections within the tangent bundle and project data from tangent spaces onto the base space, achieving global feature alignment and optimization. Experimental results confirm that the proposed method outperforms traditional ViT in terms of classification accuracy and data distribution.
- Abstract(参考訳): Vision Transformer (ViT) アーキテクチャはコンピュータビジョンにおいて広く認知され、その自己保持機構を活用して様々なタスクで顕著な成功を収めている。
その強みにもかかわらず、ViTの最適化は個々の画像内の局所的な関係をモデル化することに限られており、データポイント間のグローバルな幾何学的関係を捉える能力は制限されている。
この制限に対処するため,本論文では,ViTと近位ツールを統合した新しいフレームワークを提案し,特徴表現と分類性能を向上させるための統一的幾何最適化手法を提案する。
この枠組みでは、ViT はその自己アテンション機構を通じて多様体の接束を構築し、それぞれのアテンションヘッドは接空間に対応し、様々な局所的な視点から幾何学的表現を提供する。
その後、接バンドル内のセクションと、接空間からベース空間へのプロジェクトデータを定義し、グローバルな特徴調整と最適化を達成するために、近似反復が導入された。
実験結果から,提案手法は分類精度とデータ分布の点で従来のViTよりも優れていたことが確認された。
関連論文リスト
- Follow My Hold: Hand-Object Interaction Reconstruction through Geometric Guidance [61.41904916189093]
単眼RGB画像から手持ち物体の3次元形状を再構成する拡散法に基づく新しいフレームワークを提案する。
我々は手オブジェクト間相互作用を幾何学的ガイダンスとして使用し、手オブジェクト間相互作用を確実にする。
論文 参考訳(メタデータ) (2025-08-25T17:11:53Z) - Decouple before Align: Visual Disentanglement Enhances Prompt Tuning [85.91474962071452]
プロンプトチューニング(PT)は、視覚言語モデルのタスク固有の伝達性を改善する際、顕著な効果を示した。
本稿では,従来見過ごされていた情報非対称性の問題について述べる。
本稿では,直感的なデカプリアライン概念に基づく効果的なPTフレームワークであるDAPTを提案する。
論文 参考訳(メタデータ) (2025-08-01T07:46:00Z) - Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2025-05-27T09:05:28Z) - FlexPara: Flexible Neural Surface Parameterization [71.65203972602673]
本稿では,大域的および多角的表面パラメータ化を実現するために,教師なしニューラルネットワーク最適化フレームワークFlexParaを紹介する。
我々は,グローバルパラメータ化のための双方向のサイクルマッピングフレームワークを構築するために,幾何学的に解釈可能な一連のサブネットワークを,特定の機能と巧妙に設計・結合する。
実験は、我々の神経表面パラメータ化パラダイムの普遍性、優越性、およびインスピレーションのポテンシャルを実証する。
論文 参考訳(メタデータ) (2025-04-27T12:30:08Z) - Towards Scalable Foundation Model for Multi-modal and Hyperspectral Geospatial Data [14.104497777255137]
本稿では,3つのイノベーションを取り入れた高効率空間スペクトル変換器について紹介する。
位置マスキングとチャネルマスキングを統合したHyperspectral Masked Autoencoderフレームワークを用いたLESS ViTの事前訓練を行った。
実験により, 提案手法は, 最先端のマルチモーダル地空間基盤モデルと競合する性能を示す。
論文 参考訳(メタデータ) (2025-03-17T05:42:19Z) - HVT: A Comprehensive Vision Framework for Learning in Non-Euclidean Space [1.1858475445768824]
本稿では、双曲幾何学を統合した視覚変換器(ViT)の新たな拡張である、双曲型視覚変換器(HVT)を紹介する。
従来のViTはユークリッド空間で作用するが、この手法は双曲的距離とM"オビウス変換を活用することにより自己認識機構を強化する。
厳密な数学的定式化を行い、双曲幾何学を注意層、フィードフォワードネットワーク、最適化に組み込む方法を示す。
論文 参考訳(メタデータ) (2024-09-25T13:07:37Z) - Str-L Pose: Integrating Point and Structured Line for Relative Pose Estimation in Dual-Graph [45.115555973941255]
ロボットや自律運転など、さまざまなコンピュータビジョンアプリケーションにおいて、相対的なポーズ推定が不可欠である。
本稿では,余分な構造線セグメントと点特徴を統合した幾何対応グラフニューラルネットワークを提案する。
この整合点と線分の統合は、幾何学的制約をさらに活用し、異なる環境におけるモデル性能を向上させる。
論文 参考訳(メタデータ) (2024-08-28T12:33:26Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Surface Vision Transformers: Attention-Based Modelling applied to
Cortical Analysis [8.20832544370228]
球面多様体上に投影された任意の曲面データを研究するために、ドメインに依存しないアーキテクチャを導入する。
ビジョントランスモデルは、連続したマルチヘッド自己アテンション層を介してパッチのシーケンスを符号化する。
実験の結果、SiTは一般的に表面CNNよりも優れており、登録データと未登録データで比較可能であることがわかった。
論文 参考訳(メタデータ) (2022-03-30T15:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。