論文の概要: RAVE: Re-Allocating Visual Attention in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2605.18359v2
- Date: Tue, 26 May 2026 13:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:40.666992
- Title: RAVE: Re-Allocating Visual Attention in Large Multimodal Models
- Title(参考訳): RAVE: 大規模マルチモーダルモデルにおける視覚的注意の再配置
- Authors: Xi Leng, Xinhong Ma, Ziqiang Dong, Feng Zhang, Xiaoying Tang, Yang Yang, Guanjun Jiang,
- Abstract要約: RAVEは、視覚的キーに対する事前の注意スコアに学習されたクエリキーバイアスを追加する軽量なペアゲーティング機構である。
RAVEは標準的注意力よりも平均3ポイント向上し、知覚集約的なタスクに最大の利益をもたらす。
- 参考スコア(独自算出の注目度): 12.231879268610166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multimodal models (LMMs) inherit the self-attention mechanism of pretrained language backbones, yet standard attention can exhibit suboptimal allocation, including cross-modal misallocation between textual and visual evidence and intra-visual imbalance among visual tokens. We propose RAVE (Re-Allocating Visual Attention), a lightweight pair-gating mechanism that adds a learned query-key bias to pre-softmax attention scores over visual keys, derived from pre-RoPE query and key features. RAVE requires no architectural modification to the backbone and can be trained end-to-end with the rest of the model. Across a suite of multimodal benchmarks, RAVE improves over standard attention by an average of 3 points, with the largest gains on perception-intensive tasks -- including multilingual OCR, chart understanding, document VQA, and scene text VQA -- where accurate visual grounding is critical.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、事前訓練された言語バックボーンの自己注意機構を継承するが、標準的な注意は、テキストと視覚的証拠の間の相互の不正配置や視覚的トークン間の視覚的不均衡など、準最適配置を示す。
RAVE(Re-Allocating Visual Attention)は,学習された問合せキーのバイアスを視覚キーに付加する軽量なペアゲーティング機構である。
RAVEはバックボーンにアーキテクチャの変更を必要とせず、モデルの他の部分とエンドツーエンドでトレーニングすることができる。
マルチモーダルベンチマークのスイート全体で、RAVEは平均3ポイントの標準的注意力よりも向上し、マルチリンガルOCR、チャート理解、文書VQA、シーンテキストVQAなど、知覚集約的なタスクに対する最大の増加は、正確な視覚的接地が不可欠である。
関連論文リスト
- Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning [72.4876727619987]
推論性能は視覚注意スコア(VAS)と強く相関していることがわかった。
その因果的役割を検証するため、推論中の注意配分を直接調整する訓練不要な介入を設計する。
本研究では、視覚的アンコールデータ合成、注意誘導目的、視覚的アンコール報酬形成を統合した総合的なコールドスタートフレームワークである注意誘導視覚アンコールとリフレクションを提案する。
論文 参考訳(メタデータ) (2026-03-04T08:22:27Z) - ChartMind: A Comprehensive Benchmark for Complex Real-world Multimodal Chart Question Answering [14.468507852394923]
チャート質問応答(CQA)は、視覚言語モデルの推論能力を評価するための重要なマルチモーダルタスクとなっている。
実環境における複雑なCQAタスク用に設計された新しいベンチマークであるChartMindを紹介する。
本稿では,重要な文脈要素の抽出に焦点をあてた文脈対応だがモデルに依存しないフレームワークであるChartLLMを提案する。
論文 参考訳(メタデータ) (2025-05-29T08:46:03Z) - v1: Learning to Point Visual Tokens for Multimodal Grounded Reasoning [27.688428439248607]
簡単なポイント・アンド・コピーアプローチによるアクティブな視覚的参照を可能にする軽量な拡張であるv1を紹介する。
これにより、モデルは関連するイメージパッチを特定し、埋め込みを推論ストリームにコピーすることができる。
我々のポインティング戦略では、MLLMはセマンティックな表現をキーとして直接イメージパッチを選択でき、知覚的証拠はモデルの推論と同じ空間に埋め込まれている。
論文 参考訳(メタデータ) (2025-05-24T19:30:47Z) - MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion [43.725594356981254]
視覚と音声の両モードからテキストや特徴を抽出する検索システムを構築した。
MMMORRFは効率的かつ効果的であり、ユーザの情報要求に基づいてビデオ検索の実用性を示す。
論文 参考訳(メタデータ) (2025-03-26T16:28:04Z) - Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs [7.03771340666549]
MLLM(Multimodal Large Language Models)における視覚言語ミスアライメントは重要な課題である。
本稿では,MMA(Modality-mutual attention)に因果的注意を開放し,画像トークンがテキストトークンに参加することを可能にする新しいMLLMであるMapleLeaf AKIを提案する。
我々のMMA設計は汎用的であり、様々なモダリティにまたがるアプリケーションを可能にし、多様なマルチモーダルシナリオに対応できるようにスケーラブルである。
論文 参考訳(メタデータ) (2025-03-04T13:18:33Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。