論文の概要: Shifting AI Efficiency From Model-Centric to Data-Centric Compression
- arxiv url: http://arxiv.org/abs/2505.19147v1
- Date: Sun, 25 May 2025 13:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.935495
- Title: Shifting AI Efficiency From Model-Centric to Data-Centric Compression
- Title(参考訳): モデル中心からデータ中心圧縮へのAI効率のシフト
- Authors: Xuyang Liu, Zichen Wen, Shaobo Wang, Junjie Chen, Zhishan Tao, Yubo Wang, Xiangqi Jin, Chang Zou, Yiyu Wang, Chenfei Liao, Xu Zheng, Honggang Chen, Weijia Li, Xuming Hu, Conghui He, Linfeng Zhang,
- Abstract要約: 効率的なAIの研究の焦点は、モデル中心の圧縮からデータ中心の圧縮へとシフトしている、と我々は主張する。
我々はトークン圧縮を新たなフロンティアとして位置づけ、モデルトレーニングや推論中にトークンの数を減らすことでAI効率を向上させる。
- 参考スコア(独自算出の注目度): 33.41504505470217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large language models (LLMs) and multi-modal LLMs (MLLMs) has historically relied on model-centric scaling through increasing parameter counts from millions to hundreds of billions to drive performance gains. However, as we approach hardware limits on model size, the dominant computational bottleneck has fundamentally shifted to the quadratic cost of self-attention over long token sequences, now driven by ultra-long text contexts, high-resolution images, and extended videos. In this position paper, \textbf{we argue that the focus of research for efficient AI is shifting from model-centric compression to data-centric compression}. We position token compression as the new frontier, which improves AI efficiency via reducing the number of tokens during model training or inference. Through comprehensive analysis, we first examine recent developments in long-context AI across various domains and establish a unified mathematical framework for existing model efficiency strategies, demonstrating why token compression represents a crucial paradigm shift in addressing long-context overhead. Subsequently, we systematically review the research landscape of token compression, analyzing its fundamental benefits and identifying its compelling advantages across diverse scenarios. Furthermore, we provide an in-depth analysis of current challenges in token compression research and outline promising future directions. Ultimately, our work aims to offer a fresh perspective on AI efficiency, synthesize existing research, and catalyze innovative developments to address the challenges that increasing context lengths pose to the AI community's advancement.
- Abstract(参考訳): 大規模言語モデル (LLM) とマルチモーダル LLM (MLLM) の急速な進歩は、歴史的にモデル中心のスケーリングに依存してきた。
しかし、モデルサイズに対するハードウェアの限界に近づくにつれ、計算のボトルネックは、非常に長いテキストコンテキスト、高解像度画像、拡張ビデオによって駆動される長いトークンシーケンスに対する自己注意の2次コストへと根本的にシフトしている。
本稿では,効率的なAI研究の焦点が,モデル中心の圧縮からデータ中心の圧縮へとシフトしつつあることを論じる。
我々はトークン圧縮を新たなフロンティアとして位置づけ、モデルトレーニングや推論中にトークンの数を減らすことでAI効率を向上させる。
包括的分析を通じて、様々な領域にわたる長文AIの最近の発展を検証し、既存のモデル効率戦略のための統一された数学的枠組みを確立し、なぜトークン圧縮が長文オーバヘッドに対処する上で重要なパラダイムシフトであるのかを実証する。
その後、トークン圧縮の研究状況を体系的にレビューし、その基本的な利点を分析し、さまざまなシナリオにまたがる説得力のあるアドバンテージを特定します。
さらに,トークン圧縮研究における現在の課題を詳細に分析し,将来的な方向性を概説する。
究極的には、私たちの研究はAIの効率性に関する新たな視点を提供し、既存の研究を合成し、文脈の長さの増加がAIコミュニティの進歩に影響を及ぼす課題に対処するために革新的な開発を促進することを目的としています。
関連論文リスト
- Parameter-Efficient Continual Fine-Tuning: A Survey [5.59258786465086]
AIの次のブレークスルーは、進化する環境への効率的な適応を可能にすることです。
これらの大規模モデルを効率的に適応させる方法の1つが知られている。
PEFT(Efficient Fine-Tuning)
論文 参考訳(メタデータ) (2025-04-18T17:51:51Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。
実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。
LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文 参考訳(メタデータ) (2025-03-24T17:59:03Z) - Context Matters: Query-aware Dynamic Long Sequence Modeling of Gigapixel Images [4.3565203412433195]
ワイルスライド画像 (WSI) 解析は, ギガピクセル画像のパッチ数が膨大であるため, 計算上の課題が顕著である。
本稿では,クエリ対応の長期コンテキスト動的モデリングフレームワークであるQuerentを提案する。
提案手法は, 微粒なパッチ相関をモデル化するためのグローバルな認識を保ちながら, 計算オーバーヘッドを劇的に低減する。
論文 参考訳(メタデータ) (2025-01-31T09:29:21Z) - State-Space Modeling in Long Sequence Processing: A Survey on Recurrence in the Transformer Era [59.279784235147254]
このサーベイは、シーケンシャルなデータ処理の反復モデルに基づく最新のアプローチの詳細な概要を提供する。
新たなイメージは、標準のバックプロパゲーション・オブ・タイムから外れた学習アルゴリズムによって構成される、新しいルートを考える余地があることを示唆している。
論文 参考訳(メタデータ) (2024-06-13T12:51:22Z) - Model Compression Techniques in Biometrics Applications: A Survey [5.452293986561535]
ディープラーニングアルゴリズムは人類のタスク自動化能力を大きく強化してきた。
これらのモデルの性能の大幅な改善は、その複雑さの増大と非常に相関している。
これにより、性能を著しく低下させることなく、ディープラーニングモデルの計算コストとメモリコストを大幅に削減する圧縮技術の開発につながった。
論文 参考訳(メタデータ) (2024-01-18T17:06:21Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - A survey on Variational Autoencoders from a GreenAI perspective [0.0]
変分オートエンコーダ(VAE)は、統計や情報理論の要素と深層ニューラルネットワークが提供する柔軟性を融合する強力な生成モデルである。
この記事では、最も成功し、最近のVAEのバリエーションについて比較評価する。
論文 参考訳(メタデータ) (2021-03-01T15:26:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。