論文の概要: Photon: Speedup Volume Understanding with Efficient Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2603.25155v1
- Date: Thu, 26 Mar 2026 08:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.178925
- Title: Photon: Speedup Volume Understanding with Efficient Multimodal Large Language Models
- Title(参考訳): Photon: 効率的なマルチモーダル大言語モデルによる高速化ボリューム理解
- Authors: Chengyu Fang, Heng Guo, Zheng Jiang, Chunming He, Xiu Li, Minfeng Xu,
- Abstract要約: 可変長のトークンシーケンスを持つ3次元医用ボリュームを表すフレームワークであるPhotonを提案する。
我々は、フォトンがリソース使用量を減らし、トレーニングと推論の両方を高速化し、最先端の精度を達成することを示す。
- 参考スコア(独自算出の注目度): 24.299290453021854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models are promising for clinical visual question answering tasks, but scaling to 3D imaging is hindered by high computational costs. Prior methods often rely on 2D slices or fixed-length token compression, disrupting volumetric continuity and obscuring subtle findings. We present Photon, a framework that represents 3D medical volumes with token sequences of variable length. Photon introduces instruction-conditioned token scheduling and surrogate gradient propagation to adaptively reduce tokens during both training and inference, which lowers computational cost while mitigating the attention dilution caused by redundant tokens. It incorporates a custom backpropagation rule with gradient restoration to enable differentiable optimization despite discrete token drop. To stabilize token compression and ensure reliable use of visual evidence, Photon further applies regularization objectives that mitigate language-only bias and improve reliability. Experiments on diverse medical visual question answering tasks show that Photon achieves state-of-the-art accuracy while reducing resource usage and accelerating both training and inference.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは臨床視覚的質問応答タスクに期待できるが、3次元画像へのスケーリングは高い計算コストによって妨げられる。
従来の手法では、しばしば2Dスライスや固定長のトークン圧縮を頼りにしており、ボリュームの連続性を妨害し、微妙な発見を妨げている。
可変長のトークンシーケンスを持つ3次元医用ボリュームを表すフレームワークであるPhotonを提案する。
フォトンは命令条件付きトークンスケジューリングとシュロゲート勾配伝播を導入し、トレーニングと推論の両方でトークンを適応的に削減し、冗長トークンによる注意の希釈を緩和しながら計算コストを下げる。
独自のバックプロパゲーションルールとグラデーション復元を組み込んで、離散トークンのドロップに拘わらず、微分可能な最適化を可能にする。
トークン圧縮を安定させ、視覚的エビデンスを確実に活用するために、Photonはさらに正規化目標を適用し、言語のみのバイアスを緩和し、信頼性を向上させる。
多様な視覚的質問応答タスクの実験は、フォトンがリソース使用量を減らし、トレーニングと推論の両方を加速しながら最先端の精度を達成することを示している。
関連論文リスト
- MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models [59.180043227905294]
MedPrunerは、3次元医用画像の効率的な理解のためのトレーニング不要でモデルに依存しない階層的トークンプレーニングフレームワークである。
我々は、MedPrunerによって、MedGemmaのようなモデルが元の性能を維持したり、超えたりすることが可能であり、ビジュアルトークンの5%以下を維持していることを示す。
論文 参考訳(メタデータ) (2026-03-12T07:37:00Z) - How Much Information Can a Vision Token Hold? A Scaling Law for Recognition Limits in VLMs [14.40434528827243]
最近の視覚中心のアプローチは、長いコンテキストモデリングにおいて大きな進歩を遂げている。
これらのモデルは、レンダリングされたテキストを連続した視覚トークンにエンコードし、認識精度を犠牲にすることなく高い圧縮率を達成する。
しかし、視覚エンコーダを有限表現能力の損失チャネルと見なすと、基本的な疑問が持ち上がる。
論文 参考訳(メタデータ) (2026-01-28T15:21:51Z) - Chain-of-Thought Compression Should Not Be Blind: V-Skip for Efficient Multimodal Reasoning via Dual-Path Anchoring [33.98333539584889]
CoT(Chain-of-Thought)推論は遅延制限を禁止します。
本稿では,V-Skipを導入し,V-Achored Information Bottleneck (VA-IB) 最適化問題としてトークンプルーニングを再構成する。
Qwen2-VLとLlama-3.2ファミリーの実験では、V-Skipが29倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2026-01-20T11:45:38Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。
HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。
PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-03-09T07:07:03Z) - Detection-Driven Object Count Optimization for Text-to-Image Diffusion Models [54.641726517633025]
本稿では,事前学習したオブジェクトカウント技術とオブジェクト検出器を用いて生成をガイドする新しいフレームワークを提案する。
まず、完全生成画像上で計算された外ループ損失を用いてカウントトークンを最適化する。
第二に、視点や比例シフトによる誤差を補正する検出駆動スケーリング項を導入する。
論文 参考訳(メタデータ) (2024-08-21T15:51:46Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。