論文の概要: POINTS-Long: Adaptive Dual-Mode Visual Reasoning in MLLMs
- arxiv url: http://arxiv.org/abs/2604.11627v1
- Date: Mon, 13 Apr 2026 15:38:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.655147
- Title: POINTS-Long: Adaptive Dual-Mode Visual Reasoning in MLLMs
- Title(参考訳): POINTS-Long:MLLMにおける適応デュアルモードビジュアル推論
- Authors: Haicheng Wang, Yuan Liu, Yikun Liu, Zhemeng Yu, Zhongyin Zhao, Yangxiu You, Zilin Yu, Le Tian, Xiao Zhou, Jie Zhou, Weidi Xie, Yanfeng Wang,
- Abstract要約: POINTS-Longは、人間の視覚システムにインスパイアされた動的ビジュアルトークンスケーリングを備えた、ネイティブなデュアルモードMLLMである。
我々の研究は、将来のMLLMの設計に関する新たな洞察を提供し、適応的で効率的な長期的視覚的理解の基礎を築いた。
- 参考スコア(独自算出の注目度): 64.72502363697518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have recently demonstrated remarkable capabilities in cross-modal understanding and generation. However, the rapid growth of visual token sequences--especially in long-video and streaming scenarios--poses a major challenge to their scalability and real-world deployment. Thus, we introduce POINTS-Long, a native dual-mode MLLM featuring dynamic visual token scaling inspired by the human visual system. The model supports two complementary perception modes: focus mode and standby mode, enabling users to dynamically trade off efficiency and accuracy during inference. On fine-grained visual tasks, the focus mode retains the optimal performance, while on long-form general visual understanding, the standby mode retains 97.7-99.7% of the original accuracy using only 1/40-1/10th of the visual tokens. Moreover, POINTS-Long natively supports streaming visual understanding via a dynamically detachable KV-cache design, allowing efficient maintenance of ultra-long visual memory. Our work provides new insights into the design of future MLLMs and lays the foundation for adaptive and efficient long-form visual understanding.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、最近、クロスモーダル理解と生成において顕著な能力を示した。
しかし、特にロングビデオやストリーミングのシナリオにおいて、ビジュアルトークンシーケンスの急速な成長は、スケーラビリティと実世界のデプロイにおいて大きな課題となる。
そこで本研究では,人間の視覚システムにインスパイアされた動的視覚トークンスケーリングを特徴とする,ネイティブなデュアルモードMLLMであるPOINTS-Longを紹介する。
このモデルは、フォーカスモードとスタンバイモードの2つの補完的な知覚モードをサポートしており、ユーザーは推論中に効率と精度を動的にトレードオフすることができる。
細粒度の視覚タスクではフォーカスモードは最適性能を維持し、ロングフォームの一般的な視覚理解では、スタンバイモードは元の精度の97.7-99.7%を視覚トークンの1/40-1/10分の1で保持する。
さらに、POINTS-Longは動的に分離可能なKV-cache設計によるストリーミング視覚理解をネイティブにサポートし、超長めのビジュアルメモリの効率的なメンテナンスを可能にする。
我々の研究は、将来のMLLMの設計に関する新たな洞察を提供し、適応的で効率的な長期的視覚的理解の基礎を築いた。
関連論文リスト
- Predictive Regularization Against Visual Representation Degradation in Multimodal Large Language Models [84.94288033791346]
我々は,MLLMにおける視覚的表現の劣化という,広範にわたる課題を明らかにするために,詳細な診断分析を行う。
我々は,この現象を,単一のテキスト生成目標によって引き起こされる視覚的犠牲とみなし,そのモデルが解答生成の最適化のためにその視覚的忠実度を損なう。
本研究では,初期視覚特性を予測するために,劣化した中間特徴を強制的に予測し,MLLMの内部表現に固有の視覚特性を維持するための予測正則化を提案する。
論文 参考訳(メタデータ) (2026-03-21T13:10:37Z) - Blink: Dynamic Visual Token Resolution for Enhanced Multimodal Understanding [43.63398524449102]
人間は、シーケンシャルな「リンクライク」プロセスにおいて、動的に走査し、正常な領域に焦点を当てることで、複雑なシーンを効率よく知覚する。
我々は,人間に触発されたプロセスを1つのフォワードパス内でエミュレートする動的視覚トークン解決フレームワークであるBlinkを提案する。
Blinkは広義の探索と微妙な焦点のバランスを保ち、視覚知覚を適応的かつ効率的に向上させる。
論文 参考訳(メタデータ) (2025-12-11T11:27:25Z) - Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。
本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文 参考訳(メタデータ) (2025-12-06T04:20:13Z) - DINOv2 Driven Gait Representation Learning for Video-Based Visible-Infrared Person Re-identification [30.593882551803855]
Visible-Infrared person re-identification (VVI-ID) は、視界と赤外線を横断する同じ歩行者をモダリティから回収することを目的としている。
これらの課題に対処するために、DINOv2の豊富な視覚的優位性を活用して、外観に相補的な歩行特徴を学習するゲイト表現学習フレームワークを提案する。
具体的にはセマンティック・アウェア・シルエット・ゲイトラーニング(GL)モデルを提案する。
論文 参考訳(メタデータ) (2025-11-06T11:21:13Z) - Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference [28.24397677839652]
マルチモーダル大規模言語モデル(MLLM)は、事前訓練された視覚エンコーダの視覚的特徴を大規模言語モデルに統合することにより、視覚言語タスクの性能を向上させる。
MLLMがどのように処理し、どのように視覚情報を利用するかは、まだ不明である。
階層型モダリティ・アウェア・プルーニング(HiMAP, Hierarchical Modality-Aware Pruning)を提案する。
論文 参考訳(メタデータ) (2025-03-17T12:31:23Z) - MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding [39.68348330596116]
視覚変換器(ViTs)の深部・浅部機能を効率的に統合する,シンプルで効果的な多層機能フェーザであるモデル名を提案する。
具体的には、クエリとしてセマンティックに整合した深い機能を活用して、浅い機能から欠落した詳細を動的に抽出する。
modelnameachieveは、ビジュアル表現とベンチマークのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-15T17:55:22Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。