論文の概要: VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.13348v1
- Date: Thu, 17 Jul 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.619971
- Title: VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning
- Title(参考訳): VisionThink:強化学習によるスマートで効率的なビジョン言語モデル
- Authors: Senqiao Yang, Junyi Li, Xin Lai, Bei Yu, Hengshuang Zhao, Jiaya Jia,
- Abstract要約: 視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。
しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 95.89543460132413
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in vision-language models (VLMs) have improved performance by increasing the number of visual tokens, which are often significantly longer than text tokens. However, we observe that most real-world scenarios do not require such an extensive number of visual tokens. While the performance drops significantly in a small subset of OCR-related tasks, models still perform accurately in most other general VQA tasks with only 1/4 resolution. Therefore, we propose to dynamically process distinct samples with different resolutions, and present a new paradigm for visual token compression, namely, VisionThink. It starts with a downsampled image and smartly decides whether it is sufficient for problem solving. Otherwise, the model could output a special token to request the higher-resolution image. Compared to existing Efficient VLM methods that compress tokens using fixed pruning ratios or thresholds, VisionThink autonomously decides whether to compress tokens case by case. As a result, it demonstrates strong fine-grained visual understanding capability on OCR-related tasks, and meanwhile saves substantial visual tokens on simpler tasks. We adopt reinforcement learning and propose the LLM-as-Judge strategy to successfully apply RL to general VQA tasks. Moreover, we carefully design a reward function and penalty mechanism to achieve a stable and reasonable image resize call ratio. Extensive experiments demonstrate the superiority, efficiency, and effectiveness of our method. Our code is available at https://github.com/dvlab-research/VisionThink.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、しばしばテキストトークンよりもかなり長い視覚トークンの数を増やして、性能を向上している。
しかし、現実のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
OCR関連タスクの小さなサブセットでは性能が著しく低下するが、他のほとんどの一般的なVQAタスクではモデルが正確に1/4の解像度で実行される。
そこで我々は,異なる解像度で異なるサンプルを動的に処理し,視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
ダウンサンプル画像から始まり、問題解決に十分かどうかをスマートに決定する。
そうでなければ、モデルは高解像度の画像を要求する特別なトークンを出力できる。
固定プルーニング比またはしきい値を用いてトークンを圧縮する既存の効率的なVLM法と比較して、VisionThinkはケースごとにトークンを圧縮するかを自律的に決定する。
その結果、OCR関連タスクにおいて、より詳細な視覚的理解能力を示し、一方、より単純なタスクでは、かなりの視覚的トークンを節約できる。
我々は、強化学習を採用し、一般的なVQAタスクにRLをうまく適用するためのLCM-as-Judge戦略を提案する。
さらに, 報酬関数とペナルティ機構を慎重に設計し, 安定かつ合理的な画像再生率を実現する。
大規模な実験は,本手法の優位性,効率,有効性を示すものである。
私たちのコードはhttps://github.com/dvlab-research/VisionThink.comで公開されています。
関連論文リスト
- Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
提案手法は,複数の段階において重要なトークン選択と軽量なコンテキストマージを行い,攻撃的トークン予算の下でもきめ細かい視覚情報を保持できる。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Vision Remember: Alleviating Visual Forgetting in Efficient MLLM with Vision Feature Resample [30.263537686102016]
冗長な視覚トークンは膨大な量の計算メモリとリソースを消費する。
本研究では,LLMデコーダ層間に挿入され,視覚トークンが視覚機能を再記憶できるようにするビジョンリマインダを提案する。
再サンプリングの過程では、各視覚トークンは視覚特徴の局所的な領域にのみ参加する。
論文 参考訳(メタデータ) (2025-06-04T13:22:35Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文 参考訳(メタデータ) (2025-05-15T17:59:39Z) - When Less is Enough: Adaptive Token Reduction for Efficient Image Representation [2.2120851074630177]
より価値の低い特徴を、より価値の高いものから再構築できるという考えに基づいて、特徴ユーティリティを決定する新しい方法を提案する。
我々は、オートエンコーダとGumbel-Softmax選択機構を統合することで、この概念を実装した。
本結果は,適応的かつ効率的なマルチモーダルプルーニングに向けた有望な方向を示すものである。
論文 参考訳(メタデータ) (2025-03-20T19:17:08Z) - FCoT-VL:Advancing Text-oriented Large Vision-Language Models with Efficient Visual Token Compression [16.53645461974695]
現在の訓練不要なビジュアルトークン圧縮法は、高解像度画像を含むタスクにおいて深刻な性能劣化を示す。
テキスト指向視覚大言語モデル(VLLM)の高解像度シナリオにおける効率的なビジュアルトークン圧縮フレームワークを提案する。
提案手法は,テキスト指向ベンチマークにおいて,ベースラインよりも高い性能を保ちながら,計算オーバーヘッドを大幅に低減する。
論文 参考訳(メタデータ) (2025-02-22T16:05:33Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。