論文の概要: Blink: Dynamic Visual Token Resolution for Enhanced Multimodal Understanding
- arxiv url: http://arxiv.org/abs/2512.10548v1
- Date: Thu, 11 Dec 2025 11:27:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.337539
- Title: Blink: Dynamic Visual Token Resolution for Enhanced Multimodal Understanding
- Title(参考訳): Blink: マルチモーダル理解の強化のための動的ビジュアルトークン解決
- Authors: Yuchen Feng, Zhenyu Zhang, Naibin Gu, Yilong Chen, Peng Fu, Zheng Lin, Shuohuan Wang, Yu Sun, Hua Wu, Weiping Wang, Haifeng Wang,
- Abstract要約: 人間は、シーケンシャルな「リンクライク」プロセスにおいて、動的に走査し、正常な領域に焦点を当てることで、複雑なシーンを効率よく知覚する。
我々は,人間に触発されたプロセスを1つのフォワードパス内でエミュレートする動的視覚トークン解決フレームワークであるBlinkを提案する。
Blinkは広義の探索と微妙な焦点のバランスを保ち、視覚知覚を適応的かつ効率的に向上させる。
- 参考スコア(独自算出の注目度): 43.63398524449102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have achieved remarkable progress on various vision-language tasks, yet their visual perception remains limited. Humans, in comparison, perceive complex scenes efficiently by dynamically scanning and focusing on salient regions in a sequential "blink-like" process. Motivated by this strategy, we first investigate whether MLLMs exhibit similar behavior. Our pilot analysis reveals that MLLMs naturally attend to different visual regions across layers and that selectively allocating more computation to salient tokens can enhance visual perception. Building on this insight, we propose Blink, a dynamic visual token resolution framework that emulates the human-inspired process within a single forward pass. Specifically, Blink includes two modules: saliency-guided scanning and dynamic token resolution. It first estimates the saliency of visual tokens in each layer based on the attention map, and extends important tokens through a plug-and-play token super-resolution (TokenSR) module. In the next layer, it drops the extended tokens when they lose focus. This dynamic mechanism balances broad exploration and fine-grained focus, thereby enhancing visual perception adaptively and efficiently. Extensive experiments validate Blink, demonstrating its effectiveness in enhancing visual perception and multimodal understanding.
- Abstract(参考訳): マルチモーダル大規模言語モデル (MLLM) は様々な視覚言語タスクにおいて顕著な進歩を遂げてきたが、その視覚的知覚は限られている。
対照的に、人間は、シーケンシャルな「リンクライク」プロセスにおいて、動的に走査し、正常な領域に焦点を当てることで、複雑なシーンを効率よく知覚する。
この戦略を動機として,MLLMが同様の挙動を示すかどうかを最初に検討する。
パイロット分析の結果,MLLMは自然に層をまたがる異なる視覚領域に到達し,より多くの計算を有意なトークンに選択的に割り当てることで視覚知覚を高めることが判明した。
この知見に基づいて,人間にインスパイアされたプロセスを1つの前方パス内にエミュレートする動的視覚トークン解決フレームワークであるBlinkを提案する。
具体的には、Blinkには2つのモジュールがある。
まず、アテンションマップに基づいて各レイヤの視覚トークンの正当性を推定し、プラグイン・アンド・プレイトークン・スーパーレゾリューション(TokenSR)モジュールを通じて重要なトークンを拡張する。
次のレイヤでは、フォーカスを失うと拡張トークンをドロップする。
このダイナミックメカニズムは広い探索と微粒な焦点のバランスを保ち、視覚知覚を適応的かつ効率的に向上させる。
大規模な実験はBlinkを検証し、視覚知覚とマルチモーダル理解を高める効果を示す。
関連論文リスト
- Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。
本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文 参考訳(メタデータ) (2025-12-06T04:20:13Z) - Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference [28.24397677839652]
マルチモーダル大規模言語モデル(MLLM)は、事前訓練された視覚エンコーダの視覚的特徴を大規模言語モデルに統合することにより、視覚言語タスクの性能を向上させる。
MLLMがどのように処理し、どのように視覚情報を利用するかは、まだ不明である。
階層型モダリティ・アウェア・プルーニング(HiMAP, Hierarchical Modality-Aware Pruning)を提案する。
論文 参考訳(メタデータ) (2025-03-17T12:31:23Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。