論文の概要: VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning
- arxiv url: http://arxiv.org/abs/2601.22069v1
- Date: Thu, 29 Jan 2026 18:07:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.070509
- Title: VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning
- Title(参考訳): VTC-R1:高能率長コンテキスト推論のための視覚テキスト圧縮
- Authors: Yibo Wang, Yongcheng Jing, Shunyu Liu, Hao Guan, Rong-cheng Tu, Chengyu Wang, Jun Huang, Dacheng Tao,
- Abstract要約: 長いコンテキスト推論は、複雑なタスクに対処するために大きな言語モデル(LLM)を著しく強化した。
本稿では,視覚テキスト圧縮を推論プロセスに統合した新しい効率的な推論パラダイムであるVTC-R1を提案する。
このアプローチは推論効率を大幅に改善し、エンドツーエンドのレイテンシで2.7倍の高速化を実現します。
- 参考スコア(独自算出の注目度): 55.17170420615628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context reasoning has significantly empowered large language models (LLMs) to tackle complex tasks, yet it introduces severe efficiency bottlenecks due to the computational complexity. Existing efficient approaches often rely on complex additional training or external models for compression, which limits scalability and discards critical fine-grained information. In this paper, we propose VTC-R1, a new efficient reasoning paradigm that integrates vision-text compression into the reasoning process. Instead of processing lengthy textual traces, VTC-R1 renders intermediate reasoning segments into compact images, which are iteratively fed back into vision-language models as "optical memory." We construct a training dataset based on OpenR1-Math-220K achieving 3.4x token compression and fine-tune representative VLMs-Glyph and Qwen3-VL. Extensive experiments on benchmarks such as MATH500, AIME25, AMC23 and GPQA-D demonstrate that VTC-R1 consistently outperforms standard long-context reasoning. Furthermore, our approach significantly improves inference efficiency, achieving 2.7x speedup in end-to-end latency, highlighting its potential as a scalable solution for reasoning-intensive applications. Our code is available at https://github.com/w-yibo/VTC-R1.
- Abstract(参考訳): 長いコンテキスト推論は、複雑なタスクに対処するために大きな言語モデル(LLM)を著しく強化してきたが、計算の複雑さによって大きな効率のボトルネックがもたらされた。
既存の効率的なアプローチは、しばしば複雑な追加トレーニングや圧縮のための外部モデルに依存し、スケーラビリティを制限し、重要なきめ細かい情報を捨てる。
本稿では,視覚テキスト圧縮を推論プロセスに統合した新しい効率的な推論パラダイムであるVTC-R1を提案する。
長いテキストトレースを処理する代わりに、VTC-R1は中間推論セグメントをコンパクトな画像にレンダリングし、視覚言語モデルに反復的に「光学記憶」として送り返す。
我々は,OpenR1-Math-220Kをベースとした3.4倍のトークン圧縮と細管代表VLMs-GlyphとQwen3-VLのトレーニングデータセットを構築した。
MATH500, AIME25, AMC23, GPQA-Dなどのベンチマークの大規模な実験は、VTC-R1が標準の長文推論よりも一貫して優れていることを示した。
さらに、本手法は推論効率を大幅に改善し、エンドツーエンドのレイテンシで2.7倍の高速化を実現し、推論集約型アプリケーションのためのスケーラブルなソリューションとしての可能性を強調した。
私たちのコードはhttps://github.com/w-yibo/VTC-R1.comで公開されています。
関連論文リスト
- VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression? [43.88970987769102]
視覚テキスト圧縮(VTC)は、長いテキストを密度の高い2次元の視覚表現に変換する。
この高情報密度が視覚言語モデル(VLM)のコア長文能力に与える影響は未検討のままである。
この研究は、VTCの深い理解を提供し、より効率的でスケーラブルなVLMを設計するための基盤となる。
論文 参考訳(メタデータ) (2025-12-17T17:58:35Z) - Teaching Language Models to Reason with Tools [73.21700643314917]
emphHint-Engineeringは、推論経路内の最適点に様々なヒントを戦略的に注入する新しいデータ合成戦略である。
CoRTは効率を大幅に向上させ、32Bモデルのトークン使用量を約30%削減し、1.5Bモデルのトークン使用量を50%削減した。
論文 参考訳(メタデータ) (2025-10-23T08:41:44Z) - LLMC+: Benchmarking Vision-Language Model Compression with a Plug-and-play Toolkit [29.877232989285833]
VLM(Large Vision-Language Models)は、高機能なマルチモーダル機能を持つが、計算とメモリの要求が禁じられている。
現在のアプローチでは、テクニックを同等のモジュールに分解することはなく、空間的および時間的冗長性に対する公正な評価を妨げる。
本稿では,汎用なプラグイン・アンド・プレイツールキットを備えた総合的なVLM圧縮ベンチマークであるLLMC+を紹介する。
論文 参考訳(メタデータ) (2025-08-13T17:54:49Z) - CoRT: Code-integrated Reasoning within Thinking [44.778344623138025]
o1やDeepSeek-R1のようなLarge Reasoning Models(LRM)は、長いチェーン・オブ・シント(CoT)による自然言語推論において顕著な進歩を示している。
Code Interpreter(CI)は、モデルの内部テキスト表現以外の外部知識を提供する。
本稿では,CIを効果的かつ効率的に活用するためのLRM教育のためのポストトレーニングフレームワークであるCoRTを紹介する。
論文 参考訳(メタデータ) (2025-06-11T14:59:02Z) - TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。