論文の概要: T-MLP: Tailed Multi-Layer Perceptron for Level-of-Detail Signal Representation
- arxiv url: http://arxiv.org/abs/2509.00066v2
- Date: Mon, 29 Sep 2025 04:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.485599
- Title: T-MLP: Tailed Multi-Layer Perceptron for Level-of-Detail Signal Representation
- Title(参考訳): T-MLP:レベル・オブ・ディテール信号表現のための多層パーセプトロン
- Authors: Chuanxiang Yang, Yuanfeng Zhou, Guangshun Wei, Siyu Ren, Yuan Liu, Junhui Hou, Wenping Wang,
- Abstract要約: レベル・オブ・ディーテール(LoD)表現は、画像や3次元形状などの様々な種類の信号を効率的にモデル化し、伝達するために重要である。
本研究では,LoD信号の表現が可能な新しいネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 79.89307821140787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Level-of-detail (LoD) representation is critical for efficiently modeling and transmitting various types of signals, such as images and 3D shapes. In this work, we propose a novel network architecture that enables LoD signal representation. Our approach builds on a modified Multi-Layer Perceptron (MLP), which inherently operates at a single scale and thus lacks native LoD support. Specifically, we introduce the Tailed Multi-Layer Perceptron (T-MLP), which extends the MLP by attaching an output branch, also called tail, to each hidden layer. Each tail refines the residual between the current prediction and the ground-truth signal, so that the accumulated outputs across layers correspond to the target signals at different LoDs, enabling multi-scale modeling with supervision from only a single-resolution signal. Extensive experiments demonstrate that our T-MLP outperforms existing neural LoD baselines across diverse signal representation tasks.
- Abstract(参考訳): レベル・オブ・ディーテール(LoD)表現は、画像や3次元形状などの様々な種類の信号を効率的にモデル化し、伝達するために重要である。
本研究では,LoD信号の表現が可能な新しいネットワークアーキテクチャを提案する。
提案手法はマルチ層パーセプトロン (MLP) を改良したもので, 本質的には単一スケールで動作するため, ネイティブなLoDサポートが欠如している。
具体的には,T-MLP (Tailed Multi-Layer Perceptron) を導入し,各隠蔽層にテールと呼ばれる出力分岐を付加することでMLPを拡張する。
各テールは、現在の予測と接地構造信号の間の残差を洗練し、層をまたいだ累積出力が異なるLoDのターゲット信号に対応するようにし、単一の解像度信号のみから監督されたマルチスケールのモデリングを可能にする。
我々のT-MLPは、様々な信号表現タスクで既存のニューラルネットワークLoDベースラインより優れています。
関連論文リスト
- Prompt Guiding Multi-Scale Adaptive Sparse Representation-driven Network for Low-Dose CT MAR [48.23538056110433]
低線量CT(LDCT)はX線被曝を減らすことができるが、画質を低下させる可能性がある。
既存のディープラーニングベースの取り組みには,2つの大きな制限がある。
LDMARタスクのためのマルチスケール適応スパース表現駆動ネットワークPMSRNetを提案する。
論文 参考訳(メタデータ) (2025-04-28T11:23:57Z) - Multi-Scale U-Shape MLP for Hyperspectral Image Classification [13.85573689689951]
ハイパースペクトル画像の画素を識別する2つの課題は、局所的および大域的な相関情報と、モデルの豊富なパラメータをそれぞれ表現することである。
設計したMSC(Multi-Scale Channel)ブロックとU字型Multi-Layer Perceptron構造からなるマルチスケールU字型MUMLP(MUMLP)モデルを提案する。
我々のモデルは、広範囲に登録された3つの公開データセット上で、最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-07-05T08:52:27Z) - MLP-SRGAN: A Single-Dimension Super Resolution GAN using MLP-Mixer [0.05219568203653523]
単一次元超分解能生成適応ネットワーク(SRGAN)であるversa-SRGANを提案する。
SRGANは、MSSEG2チャレンジデータセットから高分解能(HR)FLAIR MRIを用いて訓練され、検証される。
その結果、SRGANの結果は、シャープなエッジ、ぼやけの少ない、テクスチャと微細解剖学的詳細を保存し、パラメータを少なくし、トレーニング/評価時間を短縮し、既存の方法よりもモデルサイズを小さくする。
論文 参考訳(メタデータ) (2023-03-11T04:05:57Z) - Masked Image Modeling with Local Multi-Scale Reconstruction [54.91442074100597]
Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。
既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。
そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
論文 参考訳(メタデータ) (2023-03-09T13:42:04Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - CoordX: Accelerating Implicit Neural Representation with a Split MLP
Architecture [2.6912336656165805]
多層パーセプトロン(MLP)を用いた暗黙の神経表現は、近年、様々なタスクで注目されている。
座標に基づく表現の推論と訓練を高速化する新しい分割アーキテクチャであるCoordXを提案する。
画像,映像,3次元形状表現および描画タスクのベースラインモデルと比較して,最大2.92倍のスピードアップを示す。
論文 参考訳(メタデータ) (2022-01-28T21:30:42Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。