論文の概要: Random Wins All: Rethinking Grouping Strategies for Vision Tokens
- arxiv url: http://arxiv.org/abs/2603.00486v1
- Date: Sat, 28 Feb 2026 05:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.220985
- Title: Random Wins All: Rethinking Grouping Strategies for Vision Tokens
- Title(参考訳): ランダムが勝利:ビジョントークンのためのグループ戦略を再考
- Authors: Qihang Fan, Yuang Ai, Huaibo Huang, Ran He,
- Abstract要約: 代表的なアプローチは、トークンのグループ化、各グループ内で自己注意計算の実行、あるいは各グループ内のトークンを単一のトークンにプールすることである。
本稿では,視覚トークンに対する単純かつ高速なランダムなグループ化戦略を含むランダムなグループ化戦略を提案する。
- 参考スコア(独自算出の注目度): 42.61073068532527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since Transformers are introduced into vision architectures, their quadratic complexity has always been a significant issue that many research efforts aim to address. A representative approach involves grouping tokens, performing self-attention calculations within each group, or pooling the tokens within each group into a single token. To this end, various carefully designed grouping strategies have been proposed to enhance the performance of Vision Transformers. Here, we pose the following questions: \textbf{Are these carefully designed grouping methods truly necessary? Is there a simpler and more unified token grouping method that can replace these diverse methods?} Therefore, we propose the random grouping strategy, which involves a simple and fast random grouping strategy for vision tokens. We validate this approach on multiple baselines, and experiments show that random grouping almost outperforms all other grouping methods. When transferred to downstream tasks, such as object detection, random grouping demonstrates even more pronounced advantages. In response to this phenomenon, we conduct a detailed analysis of the advantages of random grouping from multiple perspectives and identify several crucial elements for the design of grouping strategies: positional information, head feature diversity, global receptive field, and fixed grouping pattern. We demonstrate that as long as these four conditions are met, vision tokens require only an extremely simple grouping strategy to efficiently and effectively handle various visual tasks. We also validate the effectiveness of our proposed random method across multiple modalities, including visual tasks, point cloud processing, and vision-language models. Code will be available at https://github.com/qhfan/random.
- Abstract(参考訳): トランスフォーマーは視覚アーキテクチャに導入されているため、その二次的な複雑さは、多くの研究が目指す重要な問題である。
代表的なアプローチは、トークンのグループ化、各グループ内で自己注意計算の実行、あるいは各グループ内のトークンを単一のトークンにプールすることである。
この目的のために、視覚変換器の性能を高めるために、慎重に設計された様々なグループ化戦略が提案されている。
このような慎重に設計されたグループ化メソッドが本当に必要か?
これらの多様なメソッドを置き換えることができる、よりシンプルでより統一されたトークングループ化メソッドがありますか?
そこで我々は,視覚トークンに対する単純かつ高速なランダムなグルーピング戦略を含むランダムなグルーピング戦略を提案する。
このアプローチを複数のベースライン上で検証し、ランダムなグルーピングが他のグルーピング手法よりも優れていることを示す実験を行った。
オブジェクト検出などの下流タスクに転送されると、ランダムなグループ化はさらに顕著な利点を示す。
この現象に対応するために,複数視点からランダムなグループ分けの利点を詳細に分析し,グループ分け戦略(位置情報,頭部特徴の多様性,大域的受容場,固定的グループ化パターン)を設計するための重要な要素を同定する。
これら4つの条件を満たす限り、視覚トークンは様々な視覚的タスクを効率的に効果的に処理するために非常に単純なグループ化戦略を必要とする。
また,視覚タスク,ポイントクラウド処理,視覚言語モデルなど,複数のモードにわたるランダム手法の有効性を検証した。
コードはhttps://github.com/qhfan/random.comから入手できる。
関連論文リスト
- GroupCoOp: Group-robust Fine-tuning via Group Prompt Learning [57.888537648437115]
Group Context Optimization (GroupCoOp) は、単純で効果的な微調整アルゴリズムである。
微調整視覚言語モデル(VLM)の群ロバスト性を高める
GroupCoOpは、5つのCLIPアーキテクチャにわたる5つのベンチマークで最高の結果を得た。
論文 参考訳(メタデータ) (2025-09-28T09:54:30Z) - VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。
しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:55Z) - Importance-Based Token Merging for Efficient Image and Video Generation [41.94334394794811]
マージ時の高情報トークンの保存は,サンプルの品質を著しく向上させることを示す。
本稿では,計算資源割り当てにおいて最も重要なトークンを優先する重要度に基づくトークンマージ手法を提案する。
論文 参考訳(メタデータ) (2024-11-23T02:01:49Z) - Vision Transformer based Random Walk for Group Re-Identification [15.63292108454152]
グループ再識別(re-ID)は、異なるカメラの下で同じ人とグループを一致させることを目的としている。
グループ再IDのための新しい視覚変換器に基づくランダムウォークフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T08:41:14Z) - The Research of Group Re-identification from Multiple Cameras [0.4955551943523977]
グループ再識別は、従来の再識別タスクにおいて、視点や人間のポーズのバリエーションによって妨げられているだけでなく、非常に難しい。
本稿では,グループ内の多粒度情報を活用してグループ再同定を容易にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T18:28:13Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Rethinking Sampling Strategies for Unsupervised Person Re-identification [59.47536050785886]
我々は,同じフレームワーク下での各種サンプリング戦略と損失関数のパフォーマンス差の理由を解析した。
グループサンプリングを提案し、同じクラスのサンプルをグループに集める。
Market-1501、DukeMTMC-reID、MSMT17の実験は、グループサンプリングが最先端の手法に匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2021-07-07T05:39:58Z) - Portfolio Search and Optimization for General Strategy Game-Playing [58.896302717975445]
ローリングホライズン進化アルゴリズムに基づく最適化とアクション選択のための新しいアルゴリズムを提案する。
エージェントのパラメータとポートフォリオセットの最適化について,N-tuple Bandit Evolutionary Algorithmを用いて検討する。
エージェントの性能分析により,提案手法はすべてのゲームモードによく一般化し,他のポートフォリオ手法よりも優れることが示された。
論文 参考訳(メタデータ) (2021-04-21T09:28:28Z) - Few-shot Knowledge Transfer for Fine-grained Cartoon Face Generation [11.951522183013811]
そこで本研究では,様々なグループを対象とした2段階の学習プロセスを提案する。
まず、基本群(十分なデータからなる)の基本的な翻訳モデルを訓練する。
すると、他のグループの新しいサンプルが与えられた場合、各新しいグループに対してグループ固有の分岐を作成することで基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-07-27T07:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。