Fugu-MT 論文翻訳(概要): Introducing Visual Perception Token into Multimodal Large Language Model

論文の概要: Introducing Visual Perception Token into Multimodal Large Language Model

arxiv url: http://arxiv.org/abs/2502.17425v1
Date: Mon, 24 Feb 2025 18:56:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.735859
Title: Introducing Visual Perception Token into Multimodal Large Language Model
Title（参考訳）: マルチモーダル大規模言語モデルへの視覚知覚トークンの導入
Authors: Runpeng Yu, Xinyin Ma, Xinchao Wang,
Abstract要約: MLLM(Multimodal Large Language Model)はその視覚エンコーダの知覚過程に依存している。 MLLMには、独自の視覚知覚プロセスを制御する自律的な能力がない。本稿では,視覚知覚のプロセスを制御する機構をMLLMに組み込むことを目的として,視覚知覚トークンの概念を提案する。
参考スコア（独自算出の注目度）: 53.82301522384719
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To utilize visual information, Multimodal Large Language Model (MLLM) relies on the perception process of its vision encoder. The completeness and accuracy of visual perception significantly influence the precision of spatial reasoning, fine-grained understanding, and other tasks. However, MLLM still lacks the autonomous capability to control its own visual perception processes, for example, selectively reviewing specific regions of an image or focusing on information related to specific object categories. In this work, we propose the concept of Visual Perception Token, aiming to empower MLLM with a mechanism to control its visual perception processes. We design two types of Visual Perception Tokens, termed the Region Selection Token and the Vision Re-Encoding Token. MLLMs autonomously generate these tokens, just as they generate text, and use them to trigger additional visual perception actions. The Region Selection Token explicitly identifies specific regions in an image that require further perception, while the Vision Re-Encoding Token uses its hidden states as control signals to guide additional visual perception processes. Extensive experiments demonstrate the advantages of these tokens in handling spatial reasoning, improving fine-grained understanding, and other tasks. On average, the introduction of Visual Perception Tokens improves the performance of a 2B model by 23.6\%, increasing its score from 0.572 to 0.708, and even outperforms a 7B parameter model by 13.4\% (from 0.624). Please check out our repo https://github.com/yu-rp/VisualPerceptionToken
Abstract（参考訳）: 視覚情報を利用するために、MLLM(Multimodal Large Language Model)はその視覚エンコーダの知覚過程に依存している。視覚知覚の完全性と精度は、空間的推論の精度、きめ細かい理解、その他のタスクに大きな影響を及ぼす。しかし、MLLMには、画像の特定の領域を選択的にレビューしたり、特定の対象カテゴリに関連する情報にフォーカスするなど、独自の視覚認知プロセスを制御する自律的な能力がない。本研究では,視覚認知のプロセスを制御する機構を備えたMLLMの強化を目的とした,視覚知覚トークンの概念を提案する。本研究では、地域選択トークンと視覚再符号化トークンという2種類の視覚知覚トークンを設計する。 MLLMは、テキストを生成するのと同じように、これらのトークンを自律的に生成し、追加の視覚的知覚アクションをトリガーするためにそれらを使用する。領域選択トークンは、さらなる知覚を必要とする画像内の特定の領域を明確に識別する一方、ビジョン再符号化トークンは、その隠された状態を制御信号として使用して、追加の視覚知覚プロセスを導く。大規模な実験は、これらのトークンの利点を空間的推論の扱い、きめ細かい理解の改善、その他のタスクで示している。 Visual Perception Tokensの導入により、2Bモデルの性能は23.6\%向上し、スコアは0.572から0.708に向上し、さらに7Bパラメータモデルを13.4\%(0.624から)上回った。 repo https://github.com/yu-rp/VisualPerceptionToken

関連論文リスト

Blink: Dynamic Visual Token Resolution for Enhanced Multimodal Understanding [43.63398524449102]
人間は、シーケンシャルな「リンクライク」プロセスにおいて、動的に走査し、正常な領域に焦点を当てることで、複雑なシーンを効率よく知覚する。我々は,人間に触発されたプロセスを1つのフォワードパス内でエミュレートする動的視覚トークン解決フレームワークであるBlinkを提案する。 Blinkは広義の探索と微妙な焦点のバランスを保ち、視覚知覚を適応的かつ効率的に向上させる。
論文参考訳（メタデータ） (2025-12-11T11:27:25Z)
Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens [54.18057944158818]
Chain-of-Visual-Thought (COVT)は、ビジョンランゲージモデル(VLM)が連続的な視覚トークンを通じて推論できるようにするフレームワークである。約20枚のトークンからなる小さな予算の中で、COVTは軽量ビジョンの専門家から知識を抽出する。トレーニング中、COVTを持つVLMは視覚トークンを自動回帰予測し、密集した監視信号を再構築する。
論文参考訳（メタデータ） (2025-11-24T18:55:19Z)
Visual Jigsaw Post-Training Improves MLLMs [58.29961336087896]
大規模言語モデル(MLLM)における視覚的理解を強化するために設計された,汎用的な自己教師型ポストトレーニングフレームワークであるVisual Jigsawを紹介する。視覚的な入力は分割され、シャッフルされ、モデルは自然言語で正しい置換を生成することで視覚情報を再構築する必要がある。広範囲な実験により、微粒な知覚、時間的推論、空間的理解が大幅に改善された。
論文参考訳（メタデータ） (2025-09-29T17:59:57Z)
PoRe: Position-Reweighted Visual Token Pruning for Vision Language Models [12.189644988996022]
本稿では,視覚的トークンプルーニングにおける遅延バイアスを軽減するための,極めて単純かつ効果的なアプローチを提案する。画像内の空間的位置に応じて視覚的トークンの注意点を調節する簡単なリウェイト機構を提案する。提案手法は,既存のビジュアルトークンプルーニングフレームワークにシームレスに組み込むことができるプラグイン・アンド・プレイソリューションである。
論文参考訳（メタデータ） (2025-08-25T08:56:32Z)
Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文参考訳（メタデータ） (2025-06-27T14:55:40Z)
Vision Remember: Alleviating Visual Forgetting in Efficient MLLM with Vision Feature Resample [30.263537686102016]
冗長な視覚トークンは膨大な量の計算メモリとリソースを消費する。本研究では,LLMデコーダ層間に挿入され,視覚トークンが視覚機能を再記憶できるようにするビジョンリマインダを提案する。再サンプリングの過程では、各視覚トークンは視覚特徴の局所的な領域にのみ参加する。
論文参考訳（メタデータ） (2025-06-04T13:22:35Z)
ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-24T15:47:49Z)
Window Token Concatenation for Efficient Visual Large Language Models [59.6094005814282]
視覚的大言語モデル(VLLM)における視覚トークンを減らすために,ウィンドウトークン結合(WiCo)を提案する。 WiCoグループはさまざまなトークンをひとつに分類し、いくつかの細かい詳細を曖昧にします。我々はLLaVA-1.5とShikraをベースとした粗くきめ細かな視覚的理解タスクについて広範囲に実験を行い、既存のトークン低減プロジェクタと比較して優れた性能を示した。
論文参考訳（メタデータ） (2025-04-05T02:32:58Z)
Beyond Intermediate States: Explaining Visual Redundancy through Language [7.275188652473603]
MLLM(Multi-modal Large Langue Models)はしばしば数千の視覚トークンを処理する。低いViT-[cls]アソシエーションと低いテキスト・ツー・イメージアテンションスコアを持つビジュアルトークンは、認識可能な情報を含むことができる。冗長な視覚トークンを識別および解析するための信頼性の高い手法を開発した。
論文参考訳（メタデータ） (2025-03-26T13:38:10Z)
PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。 textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文参考訳（メタデータ） (2025-01-21T15:22:31Z)
[CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2024-12-08T05:29:39Z)
Perception Tokens Enhance Visual Reasoning in Multimodal Language Models [19.338167943466853]
本稿では、言語が不十分なタスクの推論を支援するために設計された画像表現であるパーセプショントークンを紹介する。知覚トークンは、言語モデルにおけるチェーン・オブ・シークレットのプロンプトに似た補助的推論トークンとして機能する。 AURORAトレーニング手法は、視覚入力に対する推論を改善するために知覚トークンを増強する。
論文参考訳（メタデータ） (2024-12-04T18:45:35Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文参考訳（メタデータ） (2024-07-31T11:40:29Z)
TokenPacker: Efficient Visual Projector for Multimodal LLM [37.1071749188282]
ビジュアルプロジェクタは、ビジュアルエンコーダとLarge Language Model(LLM)の間に必須のブリッジとして機能する。本稿では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗く細かなスキームを取り入れた新しいビジュアルプロジェクタを提案する。我々のアプローチでは、ビジュアルトークンを75%89%圧縮し、多様なベンチマークで同等またはさらに優れたパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-07-02T16:10:55Z)
Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。 SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文参考訳（メタデータ） (2024-06-07T17:55:43Z)
LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文参考訳（メタデータ） (2024-03-22T17:59:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。