論文の概要: Coarse-To-Fine Tensor Trains for Compact Visual Representations
- arxiv url: http://arxiv.org/abs/2406.04332v1
- Date: Thu, 6 Jun 2024 17:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:11:04.296397
- Title: Coarse-To-Fine Tensor Trains for Compact Visual Representations
- Title(参考訳): コンパクトな視覚表現のための粗対有限テンソルトレイン
- Authors: Sebastian Loeschcke, Dan Wang, Christian Leth-Espensen, Serge Belongie, Michael J. Kastoryano, Sagie Benaim,
- Abstract要約: 「延長アップサンプリングトレイン」は粗い方法でテンソルトレイン表現を学習する新しい方法である。
我々は,(1)圧縮,(2)の3つの軸に沿った表現を評価する。
denoising 機能と (3) 画像補完機能。
- 参考スコア(独自算出の注目度): 19.216356079910533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to learn compact, high-quality, and easy-to-optimize representations for visual data is paramount to many applications such as novel view synthesis and 3D reconstruction. Recent work has shown substantial success in using tensor networks to design such compact and high-quality representations. However, the ability to optimize tensor-based representations, and in particular, the highly compact tensor train representation, is still lacking. This has prevented practitioners from deploying the full potential of tensor networks for visual data. To this end, we propose 'Prolongation Upsampling Tensor Train (PuTT)', a novel method for learning tensor train representations in a coarse-to-fine manner. Our method involves the prolonging or `upsampling' of a learned tensor train representation, creating a sequence of 'coarse-to-fine' tensor trains that are incrementally refined. We evaluate our representation along three axes: (1). compression, (2). denoising capability, and (3). image completion capability. To assess these axes, we consider the tasks of image fitting, 3D fitting, and novel view synthesis, where our method shows an improved performance compared to state-of-the-art tensor-based methods. For full results see our project webpage: https://sebulo.github.io/PuTT_website/
- Abstract(参考訳): 視覚データに対するコンパクトで高品質で、最適化が容易な表現を学習する能力は、新しいビュー合成や3D再構成といった多くの応用において最重要である。
近年の研究では、テンソルネットワークを用いて、そのようなコンパクトで高品質な表現を設計することに成功した。
しかし、テンソルベース表現を最適化する能力、特に非常にコンパクトなテンソルトレイン表現は依然として不足している。
これにより、実践者は視覚データのためのテンソルネットワークの潜在能力をフルに展開することができなくなった。
そこで本稿では, テンソルトレイン表現を粗大に学習する新しい手法であるPuTT(Prolongation Upsampling Tensor Train)を提案する。
提案手法は,学習したテンソルトレインの延長あるいは'アップサンプリング'を伴って,漸進的に洗練される'粗いテンソルトレイン'のシーケンスを生成する。
我々は3つの軸に沿った表現を評価した。
圧縮 (2)
denoising (複数形 denoisings)
画像補完能力
これらの軸を評価するために,画像の嵌合,3次元の嵌合,新しいビュー合成といったタスクについて検討する。
完全な結果については、プロジェクトのWebページを参照してください。
関連論文リスト
- FewViewGS: Gaussian Splatting with Few View Matching and Multi-stage Training [15.634646420318731]
スパース入力画像を用いた3次元ガウス型新規ビュー合成法を提案する。
本稿では,新しい視点に課せられる整合性制約を考慮した多段階学習手法を提案する。
これは、利用可能なトレーニング画像のマッチングを使用して、新しいビューの生成を監督することで達成される。
論文 参考訳(メタデータ) (2024-11-04T16:21:00Z) - Efficient-3DiM: Learning a Generalizable Single-image Novel-view
Synthesizer in One Day [63.96075838322437]
シングルイメージのノベルビューシンセサイザーを学習するためのフレームワークを提案する。
当社のフレームワークは,トレーニング時間を10日以内から1日未満に短縮することが可能です。
論文 参考訳(メタデータ) (2023-10-04T17:57:07Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Low-Rank Tensor Function Representation for Multi-Dimensional Data
Recovery [52.21846313876592]
低ランクテンソル関数表現(LRTFR)は、無限解像度でメッシュグリッドを超えてデータを連続的に表現することができる。
テンソル関数に対する2つの基本的な概念、すなわちテンソル関数ランクとローランクテンソル関数分解を開発する。
提案手法は,最先端手法と比較して,提案手法の優越性と汎用性を裏付けるものである。
論文 参考訳(メタデータ) (2022-12-01T04:00:38Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - T4DT: Tensorizing Time for Learning Temporal 3D Visual Data [19.418308324435916]
低ランクテンソル圧縮は時間変化符号距離関数を格納・クエリするのに極めてコンパクトであることを示す。
DeepSDFやNeRFのような既存の反復学習ベースのアプローチとは異なり、理論的保証付きクローズドフォームアルゴリズムを用いる。
論文 参考訳(メタデータ) (2022-08-02T12:57:08Z) - Patch-based medical image segmentation using Quantum Tensor Networks [1.5899411215927988]
テンソルネットワークを用いた教師付き設定で画像分割を定式化する。
鍵となるアイデアは、まず画像パッチのピクセルを指数関数的に高次元の特徴空間に引き上げることである。
提案モデルの性能を3つの2次元および1つの3次元バイオメディカルイメージングデータセットで評価した。
論文 参考訳(メタデータ) (2021-09-15T07:54:05Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - Adaptive Learning of Tensor Network Structures [6.407946291544721]
我々はTN形式を利用して汎用的で効率的な適応アルゴリズムを開発し、データからTNの構造とパラメータを学習する。
本アルゴリズムは,任意の微分対象関数を効果的に最適化する少数のパラメータでTN構造を適応的に同定することができる。
論文 参考訳(メタデータ) (2020-08-12T16:41:56Z) - T-Basis: a Compact Representation for Neural Networks [89.86997385827055]
テンソルの集合をコンパクトに表現するための概念である T-Basis をニューラルネットワークでよく見られる任意の形状で導入する。
ニューラルネットワーク圧縮の課題に対する提案手法の評価を行い, 許容性能低下時に高い圧縮速度に達することを示す。
論文 参考訳(メタデータ) (2020-07-13T19:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。