論文の概要: Single-pass Adaptive Image Tokenization for Minimum Program Search
- arxiv url: http://arxiv.org/abs/2507.07995v1
- Date: Thu, 10 Jul 2025 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.541273
- Title: Single-pass Adaptive Image Tokenization for Minimum Program Search
- Title(参考訳): 最小プログラム探索のためのシングルパス適応画像トークン化
- Authors: Shivam Duggal, Sanghyun Byun, William T. Freeman, Antonio Torralba, Phillip Isola,
- Abstract要約: 本稿では,単一前方通過における画像に対する適切なトークン数を予測する単一パス適応型トークン化器KARLを提案する。
KARLは、1回のパスで動作しながら、最近の適応トークン化器の性能と一致する。
- 参考スコア(独自算出の注目度): 75.59409288259151
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: According to Algorithmic Information Theory (AIT) -- Intelligent representations compress data into the shortest possible program that can reconstruct its content, exhibiting low Kolmogorov Complexity (KC). In contrast, most visual representation learning systems use fixed-length representations for all inputs, ignoring variations in complexity or familiarity. Recent adaptive tokenization methods address this by allocating variable-length representations but typically require test-time search over multiple encodings to find the most predictive one. Inspired by Kolmogorov Complexity principles, we propose a single-pass adaptive tokenizer, KARL, which predicts the appropriate number of tokens for an image in a single forward pass, halting once its approximate KC is reached. The token count serves as a proxy for the minimum description length. KARL's training procedure closely resembles the Upside-Down Reinforcement Learning paradigm, as it learns to conditionally predict token halting based on a desired reconstruction quality. KARL matches the performance of recent adaptive tokenizers while operating in a single pass. We present scaling laws for KARL, analyzing the role of encoder/decoder size, continuous vs. discrete tokenization and more. Additionally, we offer a conceptual study drawing an analogy between Adaptive Image Tokenization and Algorithmic Information Theory, examining the predicted image complexity (KC) across axes such as structure vs. noise and in- vs. out-of-distribution familiarity -- revealing alignment with human intuition.
- Abstract(参考訳): Algorithmic Information Theory (AIT) -- Intelligent representations compress data into the shortest possible program that can constructed its content, exhibiting low Kolmogorov Complexity (KC)。
対照的に、ほとんどの視覚表現学習システムは、複雑さや親しみやすさのバリエーションを無視して、全ての入力に対して固定長表現を使用する。
近年の適応トークン化手法では、変数長の表現を割り当てることによってこの問題に対処するが、最も予測的な表現を見つけるためには、複数のエンコーディングに対するテスト時間探索が必要となる。
Kolmogorov Complexity の原理にインスパイアされた単一パス適応型トークン化器 KARL を提案する。
トークンカウントは、最小記述長のプロキシとして機能する。
KARLのトレーニング手順は、所望の再構築品質に基づいてトークン停止を条件付きで予測することを学ぶことで、アップサイド・ダウン強化学習パラダイムによく似ている。
KARLは、1回のパスで動作しながら、最近の適応トークン化器の性能と一致する。
我々は、KARLのスケーリング法則、エンコーダ/デコーダのサイズ、連続対離散トークン化などについて分析する。
さらに、アダプティブ・イメージ・トークン化とアルゴリズム情報理論の類似性を図り、構造対ノイズや分布外親和性といった軸間の予測画像複雑性(KC)を調べ、人間の直感と整合性を明らかにする概念的研究を提案する。
関連論文リスト
- "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - One-D-Piece: Image Tokenizer Meets Quality-Controllable Compression [1.7942265700058988]
可変長トークン化のための離散画像トークンであるOne-D-Pieceを紹介する。
Tail Token Dropは、"Tail Token Drop"と呼ばれる正規化メカニズムを1次元画像トークンに分割する。
コンストラクタを複数の再構成品質指標で評価した結果,既存の品質管理可能な圧縮手法よりもはるかに優れた知覚品質が得られることがわかった。
論文 参考訳(メタデータ) (2025-01-17T09:29:33Z) - CAT: Content-Adaptive Image Tokenization [92.2116487267877]
本稿では,CAT(Content-Adaptive Tokenizer)を導入し,画像の内容に基づいて表現能力を調整し,より単純な画像をより少ないトークンにエンコードする。
本研究では,大容量言語モデル(LLM)を利用したキャプションベース評価システムの設計を行い,コンテントの複雑さを予測し,与えられた画像に対する最適な圧縮比を決定する。
トークン割り当てを最適化することで、CATは同じフロップでトレーニングされた固定比率ベースラインよりもFIDスコアを改善し、推論スループットを18.5%向上させる。
論文 参考訳(メタデータ) (2025-01-06T16:28:47Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。
サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。
サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z) - Minimum Description Length and Generalization Guarantees for
Representation Learning [16.2444595840653]
本稿では,表現学習アルゴリズムの一般化誤差の上限を導出するフレームワークを提案する。
エンコーダの入力と表現の間の相互情報ではなく、我々の新しい境界は「マルチレター」相対エントロピーを含む。
著者たちの最もよく知る限り、確立された一般化境界は、情報ボトルネック型エンコーダと表現学習のための第一種である。
論文 参考訳(メタデータ) (2024-02-05T18:12:28Z) - Keyword Spotting Simplified: A Segmentation-Free Approach using
Character Counting and CTC re-scoring [8.6134769826665]
セグメンテーションフリーなキーワードスポッティングの最近の進歩は、この問題をオブジェクト検出パラダイムとして扱う。
本稿では,クエリ情報を含む長方形領域を見つけるために,文書画像を効率的にスキャンするセグメンテーションフリーシステムを提案する。
論文 参考訳(メタデータ) (2023-08-07T12:11:04Z) - A Learning Framework for Diffeomorphic Image Registration based on
Quasi-conformal Geometry [1.2891210250935146]
本稿では,非教師付き学習フレームワークである準コンフォーマル登録ネットワーク(QCRegNet)を提案する。
QCRegNetは推定器ネットワークとベルトラミソルバネットワーク(BSNet)から構成される
その結果、登録精度は最先端の手法に匹敵し、微分同相性はかなり保証されていることがわかった。
論文 参考訳(メタデータ) (2021-10-20T14:23:24Z) - SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive
Connection [51.376723069962]
本稿では,スパース適応接続(Sparse Adaptive Connection)を提案する。
SACでは、入力シーケンスをグラフとみなし、リンクノード間のアテンション操作を行う。
我々は,SACが最先端モデルと競合する一方で,メモリコストを大幅に削減することを示した。
論文 参考訳(メタデータ) (2020-03-22T07:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。