論文の概要: Multigrain-aware Semantic Prototype Scanning and Tri-Token Prompt Learning Embraced High-Order RWKV for Pan-Sharpening
- arxiv url: http://arxiv.org/abs/2604.14622v1
- Date: Thu, 16 Apr 2026 05:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.729968
- Title: Multigrain-aware Semantic Prototype Scanning and Tri-Token Prompt Learning Embraced High-Order RWKV for Pan-Sharpening
- Title(参考訳): パン研削用高次RWKVを取り入れたマルチグライン対応セマンティックプロトタイプスキャンとトリトーケンプロンプト学習
- Authors: Junfeng Li, Wenyang Zhou, Xueheng Li, Xuanhua He, Jianhou Gan, Wenqi Ren,
- Abstract要約: パンシャーピングのための多言語対応セマンティックプロトタイプスキャンパラダイムを提案する。
我々は、高階RWKVアーキテクチャとセマンティッククラスタリングから派生したトリトケンプロンプト機構を用いる。
実験により,本手法の優位性を実証した。
- 参考スコア(独自算出の注目度): 46.94213480279033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a Multigrain-aware Semantic Prototype Scanning paradigm for pan-sharpening, built upon a high-order RWKV architecture and a tri-token prompting mechanism derived from semantic clustering. Specifically, our method contains three key components: 1) Multigrain-aware Semantic Prototype Scanning. Although RWKV offers a efficient linear-complexity alternative to Transformers, its conventional bidirectional raster scanning is still semantic-agnostic and prone to positional bias. To address this issue, we introduce a semantic-driven scanning strategy that leverages locality-sensitive hashing to group semantically related regions and construct multi-grain semantic prototypes, enabling context-aware token reordering and more coherent global interaction. 2) Tri-token Prompt Learning. We design a tri-token prompting mechanism consisting of a global token, cluster-derived prototype tokens, and a learnable register token. The global and prototype tokens provide complementary semantic priors for RWKV modeling, while the register token helps suppress noisy and artifact-prone intermediate representations. 3) Invertible Q-Shift. To counteract spatial details, we apply center difference convolution on the value pathway to inject high-frequency information, and introduce an invertible multi-scale Q-shift operation for efficient and lossless feature transformation without parameter-heavy receptive field expansion. Experimental results demonstrate the superiority of our method.
- Abstract(参考訳): 本研究では,高次RWKVアーキテクチャとセマンティッククラスタリングから派生したトリトケンプロンプト機構を基盤とした,パンシャーピングのためのマルチグライン対応セマンティックプロトタイプスキャンパラダイムを提案する。
特に,本手法は3つの重要な要素を含む。
1)マルチグラインド対応セマンティックプロトタイプスキャン
RWKVはトランスフォーマーに代わる効率的な線形複雑度を提供するが、従来の双方向ラスタスキャンは意味不明であり、位置バイアスを伴わない。
この問題に対処するために,局所性に敏感なハッシュをグループ・セマンティック関連領域に活用し,マルチグラインド・セマンティック・プロトタイプを構築するセマンティック・スキャン・ストラテジーを導入する。
2)トリトケン・プロンプト学習
我々は,グローバルトークン,クラスタ起源のプロトタイプトークン,学習可能なレジスタトークンからなるトリトーケンプロンプト機構を設計する。
グローバルトークンとプロトタイプトークンは、RWKVモデリングの補完的なセマンティック先行を提供する一方、レジスタトークンはノイズやアーティファクトに起因した中間表現を抑えるのに役立つ。
3) 可逆Qシフト。
空間的詳細に対処するため、高頻度情報を注入するために値経路に中心差畳み込みを適用し、パラメータ重受容場拡大を伴わずに効率よく、損失のない特徴変換を行うために、可逆なマルチスケールQシフト演算を導入する。
実験により,本手法の優位性を実証した。
関連論文リスト
- Collapse-Free Prototype Readout Layer for Transformer Encoders [0.0]
DDCL-Attentionは、トランスフォーマーエンコーダ用のプロトタイプベースの読み出し層である。
列長の線形複雑度でコンパクトなトークン要約を生成する。
最終読み出し層、VQ-VAEの拡張可能なコードブック、階層型ドキュメント圧縮器である。
論文 参考訳(メタデータ) (2026-04-04T20:23:21Z) - Trie-Aware Transformers for Generative Recommendation [18.901863061905825]
本稿では,TrieRecを提案する。TrieRecは,トランスフォーマーを構造的帰納バイアスで拡張する,トリエアウェアな生成レコメンデーション手法である。
3つの代表的なGRバックボーン内にTrieRecを実装し、実際の4つのデータセットの平均8.83%の改善を実現しています。
論文 参考訳(メタデータ) (2026-02-25T08:25:16Z) - SPOT-Occ: Sparse Prototype-guided Transformer for Camera-based 3D Occupancy Prediction [33.82331348959048]
プロトタイプベースのスパーストランスフォーマーデコーダを提案する。
私たちの中核となる考え方は、デコーダのプロトタイプに注意を向けさせることです。
我々のモデルはSPOT-Occと呼ばれ、従来の手法よりも高速で優れていた。
論文 参考訳(メタデータ) (2026-02-04T05:59:24Z) - CSMCIR: CoT-Enhanced Symmetric Alignment with Memory Bank for Composed Image Retrieval [54.15776146365823]
Composed Image Retrieval (CIR)では、ユーザーは参照画像と操作テキストの両方を使用してターゲットイメージを検索できる。
CSMCIRは3つの相乗的コンポーネントを通して効率的なクエリターゲットアライメントを実現する統一表現フレームワークである。
論文 参考訳(メタデータ) (2026-01-07T09:21:38Z) - Q-BERT4Rec: Quantized Semantic-ID Representation Learning for Multimodal Recommendation [5.699357781063521]
セマンティック表現と量子化モデリングを統合するシーケンシャルレコメンデーションフレームワークであるQ-Bert4Recを提案する。
当社のモデルをパブリックなAmazonベンチマークで検証し、Q-Bert4Recが多くの強力な既存手法よりも優れていることを示す。
ソースコードは公開後、GitHubで公開されます。
論文 参考訳(メタデータ) (2025-12-02T07:06:44Z) - MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging [65.07273789940116]
本稿では,動的ゲノミクストークンと潜在トランスフォーマーをコンテキスト対応事前学習タスクで協調的に最適化する階層型アーキテクチャを提案する。
MergeDNAは3つの人気のあるDNAベンチマークと、微調整やゼロショット評価を伴う複数のマルチオミクスタスクにおいて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-17T19:27:41Z) - Efficient Point Transformer with Dynamic Token Aggregating for LiDAR Point Cloud Processing [19.73918716354272]
LiDARポイントクラウド処理と解析は、3Dトランスの開発によって大きな進歩を遂げた。
既存の3Dトランスフォーマー法は通常、計算コストが高く、大きな注意マップと冗長な注意マップのために非効率である。
ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2024-05-23T20:50:50Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。