論文の概要: Asynchronous Perception Machine For Efficient Test-Time-Training
- arxiv url: http://arxiv.org/abs/2410.20535v2
- Date: Sun, 03 Nov 2024 00:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:28.856457
- Title: Asynchronous Perception Machine For Efficient Test-Time-Training
- Title(参考訳): 効率的なテスト時間評価のための非同期知覚機械
- Authors: Rajat Modi, Yogesh Singh Rawat,
- Abstract要約: テスト時間トレーニング(TTT)のための計算効率の良いアーキテクチャである非同期知覚機械(APM)を提案する。
APMは、任意の順序で、任意の順序で画像のパッチを一度に処理でき、ネット内のセマンティックアウェアネスをテクストゥルエンコードする。
我々は、データセット固有の事前トレーニング、拡張、あるいは任意のプレテキストタスクなしで、配信外画像を認識するAPMの能力を実証する。
- 参考スコア(独自算出の注目度): 3.1844358655583846
- License:
- Abstract: In this work, we propose Asynchronous Perception Machine (APM), a computationally-efficient architecture for test-time-training (TTT). APM can process patches of an image one at a time in any order \textit{asymmetrically,} and \textit{still encode} semantic-awareness in the net. We demonstrate APM's ability to recognize out-of-distribution images \textit{without} dataset-specific pre-training, augmentation or any-pretext task. APM offers competitive performance over existing TTT approaches. To perform TTT, APM just distills test sample's representation \textit{once}. APM possesses a unique property: it can learn using just this single representation and starts predicting semantically-aware features. APM demostrates potential applications beyond test-time-training: APM can scale up to a dataset of 2D images and yield semantic-clusterings in a single forward pass. APM also provides first empirical evidence towards validating GLOM's insight, i.e. input percept is a field. Therefore, APM helps us converge towards an implementation which can do \textit{both} interpolation and perception on a \textit{shared}-connectionist hardware. Our code is publicly available at this link: https://rajatmodi62.github.io/apm_project_page/.
- Abstract(参考訳): 本研究では,テスト時間トレーニング(TTT)のための計算効率の高いアーキテクチャである非同期知覚機械(APM)を提案する。
APMは、任意の順序 \textit{asymmetrically,} と \textit{ Still encode} のセマンティック・アウェアネスにおいて、画像のパッチを一度に処理することができる。
APMは、データセット固有の事前トレーニング、拡張、あるいは任意のプレテキストタスクを、アウト・オブ・ディストリビューション・イメージとして認識する能力を示す。
APMは既存のTTアプローチよりも競争力がある。
TTTを実行するために、APM はテストサンプルの表現 \textit{once} を蒸留する。
APMにはユニークな特性があり、この単一の表現だけで学習し、セマンティックな特徴を予測し始めることができる。
APMは2D画像のデータセットまでスケールアップでき、単一のフォワードパスでセマンティッククラスタリングを生成できる。
APMはまた、GLOMの洞察を検証するための最初の実証的な証拠、すなわち入力パーセプションはフィールドである。
したがって、APM は \textit{both} の補間と認識を \textit{shared} 接続型ハードウェア上で行う実装に収束するのに役立ちます。
私たちのコードは、このリンクで公開されています。
関連論文リスト
- Contractive Diffusion Probabilistic Models [5.217870815854702]
拡散確率モデル (DPM) は生成的モデリングにおいて有望な手法である。
我々は、DPMの設計における後方サンプリングの収縮特性を新たな基準として提案し、新しいCDPM(Contractive DPM)のクラスを導出する。
以上の結果から,CDPMは単純な変換で事前学習したDPMの重みを活用でき,再学習は不要であることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:51:51Z) - MERTech: Instrument Playing Technique Detection Using Self-Supervised
Pretrained Model With Multi-Task Finetuning [17.307289537499184]
本稿では,大規模未ラベル音楽データに事前学習した自己教師付き学習モデルを適用し,IPT検出タスクに微調整する。
提案手法は, フレームレベルとイベントレベルの両方のメトリクスにおいて, 複数のIMTベンチマークデータセットにおいて, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-15T15:00:00Z) - Diffusion Model as Representation Learner [86.09969334071478]
Diffusion Probabilistic Models (DPMs) は、最近、様々な生成タスクにおいて顕著な結果を示した。
本稿では,DPMが獲得した知識を認識タスクに活用する新しい知識伝達手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T00:38:39Z) - MDTv2: Masked Diffusion Transformer is a Strong Image Synthesizer [158.06850125920923]
拡散確率モデル(DPM)は、画像内の対象部分間の関係を学習する文脈推論能力に欠けることが多い。
画像中のオブジェクトの意味部分間の文脈的関係学習能力を高めるマスク潜在モデリング手法を提案する。
実験の結果、MDTv2は画像合成性能に優れており、例えば、新しいSOTA FIDスコアはImageNetデータセットで1.58であり、従来のSOTA DiTよりも10倍以上高速であることがわかった。
論文 参考訳(メタデータ) (2023-03-25T07:47:21Z) - UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of
Diffusion Models [92.43617471204963]
拡散確率モデル(DPM)は高分解能画像合成において非常に有望な能力を示した。
我々は既存のDPMサンプリング器の後に適用可能な統一補正器(UniC)を開発し、精度を向上する。
そこで我々は,DPMの高速サンプリングのためのUniPCと呼ばれる統合予測器・相関器フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-09T18:59:48Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - Unsupervised Representation Learning from Pre-trained Diffusion
Probabilistic Models [83.75414370493289]
拡散確率モデル(DPM)は高品質の画像サンプルを生成する強力な能力を示している。
Diff-AEは自動符号化による表現学習のためのDPMを探索するために提案されている。
我々は、既存のトレーニング済みDPMをデコーダに適応させるために、textbfPre-trained textbfAutotextbfEncoding (textbfPDAE)を提案する。
論文 参考訳(メタデータ) (2022-12-26T02:37:38Z) - Towards Semantic Communication Protocols: A Probabilistic Logic
Perspective [69.68769942563812]
我々は,NPMを確率論理型言語ProbLogで記述された解釈可能なシンボルグラフに変換することによって構築された意味プロトコルモデル(SPM)を提案する。
その解釈性とメモリ効率を利用して、衝突回避のためのSPM再構成などのいくつかの応用を実演する。
論文 参考訳(メタデータ) (2022-07-08T14:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。