論文の概要: Fewer Tokens, Greater Scaling: Self-Adaptive Visual Bases for Efficient and Expansive Representation Learning
- arxiv url: http://arxiv.org/abs/2511.19515v1
- Date: Mon, 24 Nov 2025 03:10:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.063095
- Title: Fewer Tokens, Greater Scaling: Self-Adaptive Visual Bases for Efficient and Expansive Representation Learning
- Title(参考訳): より優れたスケーリング: 効率的で拡張的な表現学習のための自己適応型ビジュアルベース
- Authors: Shawn Young, Xingyu Zeng, Lijian Xu,
- Abstract要約: 画像のセマンティクスを保存するのに必要となる最小限の視覚トークン数とモデル容量の関係について検討する。
最小記述長の原理に着想を得て,画像トークンを視覚的意味空間内のベクトルとして再解釈する。
本稿では,冗長トークンをコンパクトな基底集合に適応的にクラスタリングする軽量モジュールOrthogonal Filteringを提案する。
- 参考スコア(独自算出の注目度): 7.379875124773055
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper investigates the fundamental relationship between model capacity and the minimal number of visual tokens required to preserve image semantics. Inspired by the Minimum Description Length principle, we reinterpret image tokens as vectors in a visual semantic space and define the intrinsic semantic complexity of an image as the smallest set of basis vectors needed to span this space. Building on this perspective, we propose Orthogonal Filtering, a lightweight module that adaptively clusters redundant tokens into a compact set of orthogonal bases. Through extensive experiments across a range of ViT models, we reveal a consistent token, model scaling law: larger models require significantly fewer tokens to span visual semantic space. Besides, we also contribute a visual long-context dataset.
- Abstract(参考訳): 本稿では,モデルキャパシティと画像のセマンティクス保存に必要な視覚トークンの最小数との基本的な関係について検討する。
最小記述長原理に着想を得て、画像トークンを視覚意味空間内のベクトルとして再解釈し、画像の本質的な意味複雑性を、この空間にまたがるために必要な基底ベクトルの最小セットとして定義する。
この観点から、冗長トークンをコンパクトな直交基底集合に適応的にクラスタリングする軽量モジュールOrthogonal Filteringを提案する。
様々なViTモデルにわたる広範な実験を通じて、一貫したトークン、モデルのスケーリング法則を明らかにします。
また、視覚的長文データセットも提供します。
関連論文リスト
- Cross-Layer Discrete Concept Discovery for Interpreting Language Models [13.842670153893977]
クロス層VQ-VAEは、ベクトル量子化を使用して層間の表現をマッピングするフレームワークである。
本手法は,量子化中のトップk温度に基づくサンプリングとEMAコードブック更新を一意に組み合わせる。
論文 参考訳(メタデータ) (2025-06-24T22:43:36Z) - Relative Drawing Identification Complexity is Invariant to Modality in Vision-Language Models [9.310396714303446]
我々は、生画像をビットマップとして、TikZフォーマットのトレース座標として、2つのプレゼンテーションを用いて視覚言語モデルを教える複雑さを評価する。
その結果、画像ベースの表現は一般に、より少ないセグメントを必要とし、座標ベースの表現よりも高い精度を達成することが示唆された。
しかし、驚くべきことに、教育の規模は通常、前もって(人間の代理)概念を制御しても、両方のモダリティにまたがる概念をランク付けする。
論文 参考訳(メタデータ) (2025-05-14T09:41:38Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。
サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。
サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Multi-layer Feature Aggregation for Deep Scene Parsing Models [19.198074549944568]
本稿では,深層解析ネットワークにおける多層特徴出力の空間-意味的整合性に対する有効利用について検討する。
提案モジュールは、空間情報と意味情報を相関付けるために、中間視覚特徴を自動選択することができる。
4つの公開シーン解析データセットの実験により、提案した機能集約モジュールを備えたディープパーシングネットワークは、非常に有望な結果が得られることが証明された。
論文 参考訳(メタデータ) (2020-11-04T23:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。