Fugu-MT 論文翻訳(概要): Rethinking Causal Mask Attention for Vision-Language Inference

論文の概要: Rethinking Causal Mask Attention for Vision-Language Inference

arxiv url: http://arxiv.org/abs/2505.18605v1
Date: Sat, 24 May 2025 08:59:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.539736
Title: Rethinking Causal Mask Attention for Vision-Language Inference
Title（参考訳）: 視覚言語推論のための因果マスク注意の再考
Authors: Xiaohuan Pei, Tao Huang, YanXiang Ma, Chang Xu,
Abstract要約: 本研究では,異なる因果マスキング戦略が視覚言語推論にどのように影響するかを検討する。我々は,この設定に適した今後の注目の家族を提案する。将来的な意味的コンテキストを過去の表現に選択的に圧縮することは推論に有効であることを示す。
参考スコア（独自算出の注目度）: 17.450072268270773
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Causal attention has become a foundational mechanism in autoregressive vision-language models (VLMs), unifying textual and visual inputs under a single generative framework. However, existing causal mask-based strategies are inherited from large language models (LLMs) where they are tailored for text-only decoding, and their adaptation to vision tokens is insufficiently addressed in the prefill stage. Strictly masking future positions for vision queries introduces overly rigid constraints, which hinder the model's ability to leverage future context that often contains essential semantic cues for accurate inference. In this work, we empirically investigate how different causal masking strategies affect vision-language inference and then propose a family of future-aware attentions tailored for this setting. We first empirically analyze the effect of previewing future tokens for vision queries and demonstrate that rigid masking undermines the model's capacity to capture useful contextual semantic representations. Based on these findings, we propose a lightweight attention family that aggregates future visual context into past representations via pooling, effectively preserving the autoregressive structure while enhancing cross-token dependencies. We evaluate a range of causal masks across diverse vision-language inference settings and show that selectively compressing future semantic context into past representations benefits the inference.
Abstract（参考訳）: 因果的注意は、自動回帰視覚言語モデル(VLM)の基礎的なメカニズムとなり、単一の生成フレームワークの下でテキスト入力と視覚入力を統合する。しかし、既存の因果マスクベースの戦略は、テキストのみのデコードに適した大規模言語モデル(LLM)から受け継がれており、プリフィル段階ではビジョントークンへの適応が不十分である。視覚的クエリーの将来の位置を厳密に隠蔽すると、過度に厳密な制約が伴うため、モデルが正確な推論に不可欠なセマンティック・キューを含む将来のコンテキストを活用できない。本研究では,異なる因果マスキング戦略が視覚言語推論にどのように影響するかを実証的に検討し,この設定に適した将来意識のファミリを提案する。まず,視覚質問に対する将来のトークンのプレビューの効果を実証的に分析し,厳密なマスキングが有用な文脈意味表現を捕捉するモデルの能力を損なうことを実証する。これらの知見に基づき, 自動回帰構造を効果的に保ちつつ, 相互依存を保ちつつ, 将来的な視覚的コンテキストをプールを通して過去の表現に集約する軽量アテンションファミリーを提案する。多様な視覚言語推論設定における因果マスクの範囲を評価し、過去の表現に将来的な意味的コンテキストを選択的に圧縮することが推論に有効であることを示す。

関連論文リスト

Vision and Intention Boost Large Language Model in Long-Term Action Anticipation [39.66216219048517]
長期的な行動予測は、長期にわたる将来の行動を予測することを目的としている。近年の研究では、大きな言語モデル(LLM)を利用して、深刻な情報損失を被るテキストベースの入力を活用している。本研究では,視覚データのリッチなセマンティック情報を完全に活用する,新しいインテンシブ・コンディション・ビジョン・ランゲージ(ICVL)モデルを提案する。
論文参考訳（メタデータ） (2025-05-03T06:33:54Z)
Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文参考訳（メタデータ） (2025-04-02T10:47:07Z)
FutureVision: A methodology for the investigation of future cognition [0.5644620681963636]
本研究では,未来シナリオの評価において,視覚的固定パターンがどう変化するかを検討する。予備的な結果は、遠未来と悲観的なシナリオがより長い固定とより不規則なサケードと関連していることを示している。
論文参考訳（メタデータ） (2025-02-03T18:29:06Z)
Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。 I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文参考訳（メタデータ） (2025-01-03T09:25:04Z)
Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文参考訳（メタデータ） (2024-10-18T03:34:32Z)
Towards Interpreting Visual Information Processing in Vision-Language Models [24.51408101801313]
VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。
論文参考訳（メタデータ） (2024-10-09T17:55:02Z)
Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文参考訳（メタデータ） (2023-09-09T03:01:38Z)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文参考訳（メタデータ） (2022-12-01T05:00:18Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。