論文の概要: Vision-Language Alignment from Compressed Image Representations using 2D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2509.22615v1
- Date: Fri, 26 Sep 2025 17:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.618742
- Title: Vision-Language Alignment from Compressed Image Representations using 2D Gaussian Splatting
- Title(参考訳): 2次元ガウススプレイティングを用いた圧縮画像表現からの視覚言語アライメント
- Authors: Yasmine Omri, Connor Ding, Tsachy Weissman, Thierry Tambe,
- Abstract要約: 現代のビジョン言語パイプラインは、大量の画像テキストコーパスでトレーニングされたRGBビジョンエンコーダによって駆動される。
これらのパイプラインは、ピクセル領域から2つの構造的非効率を継承する: (i) エッジデバイスからクラウドへ高密度のRGB画像を送信することはエネルギー集約的でコストがかかり、 (ii) パッチベースのトークン化はシーケンス長を爆発させる。
2次元ガウス散乱(2DGS)をアライメントのための代替視覚基板として検討する。
- 参考スコア(独自算出の注目度): 4.2390854432099205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern vision language pipelines are driven by RGB vision encoders trained on massive image text corpora. While these pipelines have enabled impressive zero shot capabilities and strong transfer across tasks, they still inherit two structural inefficiencies from the pixel domain: (i) transmitting dense RGB images from edge devices to the cloud is energy intensive and costly, and (ii) patch based tokenization explodes sequence length, stressing attention budgets and context limits. We explore 2D Gaussian Splatting (2DGS) as an alternative visual substrate for alignment: a compact, spatially adaptive representation that parameterizes images by a set of colored anisotropic Gaussians. We develop a scalable 2DGS pipeline with structured initialization, luminance aware pruning, and batched CUDA kernels, achieving over 90x faster fitting and about 97% GPU utilization compared to prior implementations. We further adapt contrastive language image pretraining (CLIP) to 2DGS by reusing a frozen RGB-based transformer backbone with a lightweight splat aware input stem and a perceiver resampler, training only about 7% of the total parameters. On large DataComp subsets, GS encoders yield meaningful zero shot ImageNet-1K performance while compressing inputs 3 to 20x relative to pixels. While accuracy currently trails RGB encoders, our results establish 2DGS as a viable multimodal substrate, pinpoint architectural bottlenecks, and open a path toward representations that are both semantically powerful and transmission efficient for edge cloud learning.
- Abstract(参考訳): 現代のビジョン言語パイプラインは、大量の画像テキストコーパスでトレーニングされたRGBビジョンエンコーダによって駆動される。
これらのパイプラインは印象的なゼロショット機能とタスク間の強い転送を可能にしたが、それでもピクセルドメインから2つの構造的非効率を継承している。
(i)エッジデバイスからクラウドへ高密度RGB画像を送信することはエネルギー集約的で費用がかかる。
(ii) パッチベースのトークン化はシーケンス長を爆発させ、注意予算とコンテキスト制限を強調します。
カラー異方性ガウス像の集合による画像のパラメータ化を行うコンパクトな空間適応表現である2次元ガウス格子(2DGS)をアライメントのための代替視覚基板として検討する。
我々は、構造化初期化、輝度認識プルーニング、バッチ化されたCUDAカーネルを備えたスケーラブルな2DGSパイプラインを開発し、従来の実装に比べて90倍以上高速な適合と約97%のGPU利用を実現した。
さらに,RGBベースのトランスフォーマーバックボーンを軽量なスプレート認識入力ステムとパーシーバーリサンプラーで再利用することにより,CLIPを2DGSに適応させ,全パラメータの約7%をトレーニングした。
大規模なDataCompサブセットでは、GSエンコーダは、画素に対して3倍から20倍の入力を圧縮しながら、意味のあるゼロショット画像Net-1Kのパフォーマンスを得る。
現在、RGBエンコーダの精度は向上しているが、2DGSを実行可能なマルチモーダル基板として確立し、アーキテクチャ上のボトルネックを指摘し、エッジクラウド学習において意味論的に強力かつ伝達効率のよい表現への道を開く。
関連論文リスト
- GViT: Representing Images as Gaussians for Visual Recognition [54.46109876668194]
GVITは従来のピクセルやパッチグリッドの入力表現を捨て、学習可能な2Dガウスのコンパクトなセットを優先する分類フレームワークである。
比較的標準的なViTアーキテクチャを用いて、2次元ガウス入力表現とGVITガイダンスを組み合わせることで、従来のパッチベースのViTの性能と密に一致していることを示す。
論文 参考訳(メタデータ) (2025-06-30T05:44:14Z) - HDBFormer: Efficient RGB-D Semantic Segmentation with A Heterogeneous Dual-Branch Framework [0.0]
屋内シーンのRGB-Dセマンティックセグメンテーションにおいて、RGB画像からのリッチな色情報と奥行き画像からの空間的距離情報とを効果的に統合することが重要な課題である。
本稿では,HDBFormerと呼ばれる新しい異種二分岐フレームワークを提案する。
リッチディテールを含むRGB画像に対しては,局所的特徴とグローバルな特徴を抽出するために,基本および詳細エンコーダを併用する。
より単純な深度画像に対して,より少ないパラメータで効率的に深度特徴を抽出する軽量階層エンコーダLDFormerを提案する。
論文 参考訳(メタデータ) (2025-04-18T09:29:46Z) - GaussianToken: An Effective Image Tokenizer with 2D Gaussian Splatting [64.84383010238908]
本稿では,2次元ガウススプラッティングを解法とする効果的な画像トークン化手法を提案する。
一般に、我々のフレームワークは、2次元ガウス分布の局所的な影響を離散空間に統合する。
CIFAR, Mini-Net, ImageNet-1K 上での競合的再構成性能は,我々のフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2025-01-26T17:56:11Z) - SparseGrasp: Robotic Grasping via 3D Semantic Gaussian Splatting from Sparse Multi-View RGB Images [125.66499135980344]
オープンボキャブラリ型ロボットグリップシステムであるSparseGraspを提案する。
SparseGraspはスパースビューのRGBイメージで効率的に動作し、シーン更新を高速に処理する。
SparseGraspは, 高速化と適応性の両方の観点から, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-03T03:56:01Z) - Multispectral Texture Synthesis using RGB Convolutional Neural Networks [2.3213238782019316]
最先端のRGBテクスチャ合成アルゴリズムは、深い特徴の統計によって計算されるスタイル距離に依存している。
本稿では,これらの手法をマルチスペクトルイメージングに拡張する2つの方法を提案する。
論文 参考訳(メタデータ) (2024-10-21T13:49:54Z) - Image-GS: Content-Adaptive Image Representation via 2D Gaussians [52.598772767324036]
本稿では,2次元ガウス放射率に基づくコンテンツ適応型画像表現であるImage-GSを紹介する。
リアルタイム使用のためにハードウェアフレンドリーな高速アクセスをサポートし、ピクセルをデコードするためには0.3KのMACしか必要としない。
テクスチャ圧縮、セマンティクス対応圧縮、共同画像圧縮と復元など、いくつかのアプリケーションでその汎用性を実証する。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - Robust Double-Encoder Network for RGB-D Panoptic Segmentation [31.807572107839576]
パノプティックセグメンテーションは、ピクセルワイズセマンティックラベルをインスタンスIDと共に計算することでシーンの解釈を提供する。
本稿では、2つのエンコーダを通してRGBと深さを別々に処理する新しいエンコーダデコーダニューラルネットワークを提案する。
提案手法は,他の汎視的セグメンテーション手法と比較して,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:46:37Z) - Parallel Discrete Convolutions on Adaptive Particle Representations of
Images [2.362412515574206]
適応粒子表現上の離散畳み込み演算子のネイティブ実装のためのデータ構造とアルゴリズムを提案する。
APRは、サンプリング解像度を画像信号に局所的に適応するコンテンツ適応型画像表現である。
APRの畳み込みは、マルチコアCPUとGPUアーキテクチャを効率的に並列化するスケール適応アルゴリズムを自然に導くことを示す。
論文 参考訳(メタデータ) (2021-12-07T09:40:05Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。