論文の概要: Proximal Vision Transformer: Enhancing Feature Representation through Two-Stage Manifold Geometry
- arxiv url: http://arxiv.org/abs/2508.17081v1
- Date: Sat, 23 Aug 2025 16:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.330908
- Title: Proximal Vision Transformer: Enhancing Feature Representation through Two-Stage Manifold Geometry
- Title(参考訳): 近視変換器:2段マニフォールド幾何学による特徴表現の強化
- Authors: Haoyu Yun, Hamid Krim,
- Abstract要約: ビジョントランスフォーマー(ViT)はコンピュータビジョンにおいて広く認知され、その自己認識機構を活用して様々なタスクで顕著な成功を収めている。
本稿では,近位ツールとViTを統合した新しいフレームワークを提案し,統一的な幾何最適化手法を提案する。
実験結果から,提案手法は分類精度とデータ分布の点で従来のViTよりも優れていたことが確認された。
- 参考スコア(独自算出の注目度): 7.3623134099785155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Vision Transformer (ViT) architecture has become widely recognized in computer vision, leveraging its self-attention mechanism to achieve remarkable success across various tasks. Despite its strengths, ViT's optimization remains confined to modeling local relationships within individual images, limiting its ability to capture the global geometric relationships between data points. To address this limitation, this paper proposes a novel framework that integrates ViT with the proximal tools, enabling a unified geometric optimization approach to enhance feature representation and classification performance. In this framework, ViT constructs the tangent bundle of the manifold through its self-attention mechanism, where each attention head corresponds to a tangent space, offering geometric representations from diverse local perspectives. Proximal iterations are then introduced to define sections within the tangent bundle and project data from tangent spaces onto the base space, achieving global feature alignment and optimization. Experimental results confirm that the proposed method outperforms traditional ViT in terms of classification accuracy and data distribution.
- Abstract(参考訳): Vision Transformer (ViT) アーキテクチャはコンピュータビジョンにおいて広く認知され、その自己保持機構を活用して様々なタスクで顕著な成功を収めている。
その強みにもかかわらず、ViTの最適化は個々の画像内の局所的な関係をモデル化することに限られており、データポイント間のグローバルな幾何学的関係を捉える能力は制限されている。
この制限に対処するため,本論文では,ViTと近位ツールを統合した新しいフレームワークを提案し,特徴表現と分類性能を向上させるための統一的幾何最適化手法を提案する。
この枠組みでは、ViT はその自己アテンション機構を通じて多様体の接束を構築し、それぞれのアテンションヘッドは接空間に対応し、様々な局所的な視点から幾何学的表現を提供する。
その後、接バンドル内のセクションと、接空間からベース空間へのプロジェクトデータを定義し、グローバルな特徴調整と最適化を達成するために、近似反復が導入された。
実験結果から,提案手法は分類精度とデータ分布の点で従来のViTよりも優れていたことが確認された。
関連論文リスト
- HyperAlign: Hyperbolic Entailment Cones for Adaptive Text-to-Image Alignment Assessment [84.65251073657883]
双曲的エンターメント幾何に基づく適応型テキスト・画像アライメントアライメントアセスメントフレームワークHyperAlignを提案する。
まず、CLIPを用いてユークリッド特徴を抽出し、双曲空間にマッピングする。
第二に、離散エンターメント論理を連続的な幾何学的構造管理に変換する動的スーパービジョンエンターメントモデリング機構を設計する。
第3に,双曲幾何学的特徴を利用してサンプルレベルの変調パラメータを生成する適応変調回帰器を提案する。
論文 参考訳(メタデータ) (2026-01-08T05:41:06Z) - Modality Alignment across Trees on Heterogeneous Hyperbolic Manifolds [49.95082206008502]
ツリーを横断するアライメントは、画像とテキストのモダリティの両方に対してツリーのような階層的な特徴を構築し、調整する手法である。
本稿では,中間トランスフォーマー層からの視覚的クラストークンにクロスアテンション機構を適用した意味認識型視覚特徴抽出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-31T11:32:15Z) - VGD: Visual Geometry Gaussian Splatting for Feed-Forward Surround-view Driving Reconstruction [26.668204454537246]
我々は,この課題に対処すべく,新しいフィードフォワードエンドツーエンド学習フレームワークであるtextbfVisual Gaussian Driving (VGD)を紹介した。
提案手法は, 客観的指標と主観的品質の両方において, 種々の条件下で, 最先端の手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-10-22T13:28:49Z) - SegMASt3R: Geometry Grounded Segment Matching [23.257530861472656]
我々は3次元基礎モデルの空間的理解を活用して,広義のセグメントマッチングに取り組む。
本稿では,これら3次元基礎モデルの帰納バイアスを利用して,最大180度の視点変化回転で画像対間のセグメントをマッチングするアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-10-06T17:31:32Z) - Beyond flattening: a geometrically principled positional encoding for vision transformers with Weierstrass elliptic functions [2.8199098530835127]
視覚変換器はコンピュータビジョンタスクにおいて顕著な成功を収めた。
伝統的な位置符号化アプローチはユークリッド空間距離とシーケンシャルインデックス距離との間の単調な対応を確立するのに失敗する。
WEF-PE(英語版)は、自然複素領域表現による埋め込み2次元座標を直接扱う数学的原理のアプローチである。
論文 参考訳(メタデータ) (2025-08-26T16:14:59Z) - Follow My Hold: Hand-Object Interaction Reconstruction through Geometric Guidance [61.41904916189093]
単眼RGB画像から手持ち物体の3次元形状を再構成する拡散法に基づく新しいフレームワークを提案する。
我々は手オブジェクト間相互作用を幾何学的ガイダンスとして使用し、手オブジェクト間相互作用を確実にする。
論文 参考訳(メタデータ) (2025-08-25T17:11:53Z) - Decouple before Align: Visual Disentanglement Enhances Prompt Tuning [85.91474962071452]
プロンプトチューニング(PT)は、視覚言語モデルのタスク固有の伝達性を改善する際、顕著な効果を示した。
本稿では,従来見過ごされていた情報非対称性の問題について述べる。
本稿では,直感的なデカプリアライン概念に基づく効果的なPTフレームワークであるDAPTを提案する。
論文 参考訳(メタデータ) (2025-08-01T07:46:00Z) - Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2025-05-27T09:05:28Z) - FlexPara: Flexible Neural Surface Parameterization [71.65203972602673]
本稿では,大域的および多角的表面パラメータ化を実現するために,教師なしニューラルネットワーク最適化フレームワークFlexParaを紹介する。
我々は,グローバルパラメータ化のための双方向のサイクルマッピングフレームワークを構築するために,幾何学的に解釈可能な一連のサブネットワークを,特定の機能と巧妙に設計・結合する。
実験は、我々の神経表面パラメータ化パラダイムの普遍性、優越性、およびインスピレーションのポテンシャルを実証する。
論文 参考訳(メタデータ) (2025-04-27T12:30:08Z) - Towards Scalable Foundation Model for Multi-modal and Hyperspectral Geospatial Data [14.104497777255137]
本稿では,3つのイノベーションを取り入れた高効率空間スペクトル変換器について紹介する。
位置マスキングとチャネルマスキングを統合したHyperspectral Masked Autoencoderフレームワークを用いたLESS ViTの事前訓練を行った。
実験により, 提案手法は, 最先端のマルチモーダル地空間基盤モデルと競合する性能を示す。
論文 参考訳(メタデータ) (2025-03-17T05:42:19Z) - HVT: A Comprehensive Vision Framework for Learning in Non-Euclidean Space [1.1858475445768824]
本稿では、双曲幾何学を統合した視覚変換器(ViT)の新たな拡張である、双曲型視覚変換器(HVT)を紹介する。
従来のViTはユークリッド空間で作用するが、この手法は双曲的距離とM"オビウス変換を活用することにより自己認識機構を強化する。
厳密な数学的定式化を行い、双曲幾何学を注意層、フィードフォワードネットワーク、最適化に組み込む方法を示す。
論文 参考訳(メタデータ) (2024-09-25T13:07:37Z) - Str-L Pose: Integrating Point and Structured Line for Relative Pose Estimation in Dual-Graph [45.115555973941255]
ロボットや自律運転など、さまざまなコンピュータビジョンアプリケーションにおいて、相対的なポーズ推定が不可欠である。
本稿では,余分な構造線セグメントと点特徴を統合した幾何対応グラフニューラルネットワークを提案する。
この整合点と線分の統合は、幾何学的制約をさらに活用し、異なる環境におけるモデル性能を向上させる。
論文 参考訳(メタデータ) (2024-08-28T12:33:26Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Surface Vision Transformers: Attention-Based Modelling applied to
Cortical Analysis [8.20832544370228]
球面多様体上に投影された任意の曲面データを研究するために、ドメインに依存しないアーキテクチャを導入する。
ビジョントランスモデルは、連続したマルチヘッド自己アテンション層を介してパッチのシーケンスを符号化する。
実験の結果、SiTは一般的に表面CNNよりも優れており、登録データと未登録データで比較可能であることがわかった。
論文 参考訳(メタデータ) (2022-03-30T15:56:11Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。