論文の概要: CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding
- arxiv url: http://arxiv.org/abs/2602.01785v1
- Date: Mon, 02 Feb 2026 08:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.004059
- Title: CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding
- Title(参考訳): CodeOCR:コード理解におけるビジョン言語モデルの有効性について
- Authors: Yuling Shi, Chaoxiang Xie, Zhensu Sun, Yeheng Chen, Chenxu Zhang, Longfei Yun, Chengcheng Wan, Hongyu Zhang, David Lo, Xiaodong Gu,
- Abstract要約: 大規模な言語モデル(LLM)は、ソースコード理解において大きな成功を収めています。
ソフトウェアシステムが大規模に成長するにつれ、計算効率は重要なボトルネックとなっている。
- 参考スコア(独自算出の注目度): 24.71096142371054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success in source code understanding, yet as software systems grow in scale, computational efficiency has become a critical bottleneck. Currently, these models rely on a text-based paradigm that treats source code as a linear sequence of tokens, which leads to a linear increase in context length and associated computational costs. The rapid advancement of Multimodal LLMs (MLLMs) introduces an opportunity to optimize efficiency by representing source code as rendered images. Unlike text, which is difficult to compress without losing semantic meaning, the image modality is inherently suitable for compression. By adjusting resolution, images can be scaled to a fraction of their original token cost while remaining recognizable to vision-capable models. To explore the feasibility of this approach, we conduct the first systematic study on the effectiveness of MLLMs for code understanding. Our experiments reveal that: (1) MLLMs can effectively understand code with substantial token reduction, achieving up to 8x compression; (2) MLLMs can effectively leverage visual cues such as syntax highlighting, improving code completion performance under 4x compression; and (3) Code-understanding tasks like clone detection exhibit exceptional resilience to visual compression, with some compression ratios even slightly outperforming raw text inputs. Our findings highlight both the potential and current limitations of MLLMs in code understanding, which points out a shift toward image-modality code representation as a pathway to more efficient inference.
- Abstract(参考訳): 大規模言語モデル(LLM)はソースコード理解において顕著な成功を収めていますが、ソフトウェアシステムが大規模に成長するにつれ、計算効率は重要なボトルネックになっています。
現在、これらのモデルは、ソースコードをトークンの線形シーケンスとして扱うテキストベースのパラダイムに依存しており、コンテキストの長さと関連する計算コストが線形に増加する。
MLLM(Multimodal LLM)の急速な進歩は、ソースコードを描画画像として表現することで効率を最適化する機会をもたらす。
意味を失わずに圧縮することが難しいテキストとは異なり、画像のモダリティは本質的に圧縮に適している。
解像度を調整することで、画像は元のトークンコストのごく一部までスケールできるが、視認可能なモデルでは認識可能である。
提案手法の有効性を検討するため,コード理解におけるMLLMの有効性について,最初の系統的研究を行った。
実験の結果,(1)MLLMは,最大8倍の圧縮を達成できる,(2)構文強調表示や4倍の圧縮によるコード補完性能向上といった視覚的手法を効果的に活用できる,(3)クローン検出などのコード理解タスクは,視覚的圧縮に対して例外的なレジリエンスを示し,圧縮比は生のテキスト入力よりも若干優れる,といったことが判明した。
コード理解におけるMLLMの潜在的な限界と現在の限界を強調し,より効率的な推論への道筋として,画像モダリティコード表現へのシフトが指摘されている。
関連論文リスト
- AdaTok: Adaptive Token Compression with Object-Aware Representations for Efficient Multimodal LLMs [29.68162972167947]
適応トークン圧縮のためのオブジェクトレベルのトークンマージ戦略を提案する。
当社のアプローチでは,バニラモデルのパフォーマンスの96%を達成しながら,トークンの10%しか使用していません。
論文 参考訳(メタデータ) (2025-11-18T06:12:15Z) - CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - Generic Token Compression in Multimodal Large Language Models from an Explainability Perspective [6.258220461022373]
既存のMultimodal Large Language Models (MLLM) は多数の視覚トークンを処理し、計算コストと非効率性をもたらす。
トークン圧縮はLLMの入力段階では不可能な性能損失で実現可能であることを示す。
本稿では,第1のLCMレイヤのアテンションマップから説明結果へのマッピングを学習し,完全な推論パスの必要性を回避することを提案する。
論文 参考訳(メタデータ) (2025-06-01T17:44:16Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - Bridging Compressed Image Latents and Multimodal Large Language Models [45.83457913639876]
本稿では、下流視覚タスクのニーズに合うように圧縮画像ラテントを適応させる最初の研究について述べる。
MLLMは、大規模な言語モデルの成功をテキスト以外のモダリティにまで拡大してきたが、その数十億ドルのスケールは、リソースに制約のあるエンドデバイスへのデプロイメントを妨げる。
本稿では,MLLMに基づく視覚タスクに対して,軽量なトランスフォーメーションネックとサロゲート損失を用いた圧縮画像ラテントを適応させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-29T02:32:44Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。