Fugu-MT 論文翻訳(概要): Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

論文の概要: Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2603.04453v1
Date: Fri, 27 Feb 2026 18:47:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:10.893475
Title: Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models
Title（参考訳）: 数値不安定性の誘発:マルチモーダル大言語モデルにおける隠れコスト
Authors: Wai Tuck Wong, Jun Sun, Arunesh Sinha,
Abstract要約: 損失項を最適化することで間接的に性能低下を引き起こす新しい障害モードについて検討する。この結果から, 対向的摂動によって捉えられない障害モードが明らかとなった。
参考スコア（独自算出の注目度）: 16.09514183229709
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The use of multimodal large language models has become widespread, and as such the study of these models and their failure points has become of utmost importance. We study a novel mode of failure that causes degradation in performance indirectly by optimizing a loss term that seeks to maximize numerical instability in the inference stage of these models. We apply this loss term as the optimization target to construct images that, when used on multimodal large language models, cause significant degradation in the output. We validate our hypothesis on state of the art models large vision language models (LLaVa-v1.5-7B, Idefics3-8B, SmolVLM-2B-Instruct) against standard datasets (Flickr30k, MMVet, TextVQA, VQAv2, POPE, COCO) and show that performance degrades significantly, even with a very small change to the input image, compared to baselines. Our results uncover a fundamentally different vector of performance degradation, highlighting a failure mode not captured by adversarial perturbations.
Abstract（参考訳）: マルチモーダルな大言語モデルの利用が広まり、これらのモデルとその失敗点の研究が最も重要になっている。本研究では,これらのモデルの推論段階における数値不安定性を最大化しようとする損失項を最適化することにより,性能劣化を間接的に引き起こす新たな障害モードについて検討する。この損失項を最適化対象として,マルチモーダルな大言語モデルで使用すると,出力が大幅に低下する画像の構築に適用する。現状技術モデル(LLaVa-v1.5-7B, Idefics3-8B, SmolVLM-2B-Instruct)を標準データセット(Flickr30k, MMVet, TextVQA, VQAv2, POPE, COCO)に対して検証し,ベースラインと比較して入力画像に非常に小さな変更を加えても,性能が著しく低下することを示す。この結果から, 対向的摂動によって捉えられない障害モードが明らかとなった。

関連論文リスト

Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文参考訳（メタデータ） (2026-02-06T12:24:26Z)
Model-Dowser: Data-Free Importance Probing to Mitigate Catastrophic Forgetting in Multimodal Large Language Models [2.83595986479415]
タスク固有データに対する細調整型マルチモーダル言語モデル(MLLM)は、下流アプリケーションの性能向上に有効な方法である。この問題を緩和しようとする既存の手法は、言語デコーダの深い層を微調整した場合や、モデルのサイズが大きくなるにつれて、効果が低下する。本稿では,MLLMの新しい細粒度調整手法であるModel-Dowserを提案する。
論文参考訳（メタデータ） (2026-02-04T12:56:27Z)
Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space [52.34072027212278]
埋め込みモデルは、セマンティック検索や検索強化生成のような現代のAIシステムの基本コンポーネントである。大規模基盤モデルの最近の進歩は、埋め込みモデルの開発を著しく加速させてきた。マルチモーダルdLLMを埋め込みモデルに変換するための最初の体系的研究について述べる。
論文参考訳（メタデータ） (2026-01-19T06:51:15Z)
LP-LLM: End-to-End Real-World Degraded License Plate Text Recognition via Large Multimodal Models [4.497411606350301]
LPR(Real-world License Plate Recognition)は、モーションボケ、低解像度、複雑な照明などの深刻な劣化によって大きな課題に直面している。画像復元モデルの画素レベルの最適化目標は、文字認識のセマンティックな目標と不一致である。本稿では,Qwen3-VLに基づくエンドツーエンド構造対応マルチモーダル推論フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-14T03:32:55Z)
Evaluating Robustness of Vision-Language Models Under Noisy Conditions [0.0176290054713643]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて、例外的な成功を収めている。制御摂動下での複数の最先端VLMの性能を評価するための総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-15T22:31:21Z)
Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文参考訳（メタデータ） (2024-11-05T12:26:25Z)
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。 DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文参考訳（メタデータ） (2024-05-24T05:46:04Z)
Partially Recentralization Softmax Loss for Vision-Language Models Robustness [8.78222772167501]
事前学習したマルチモーダルモデルの損失関数を変更することで得られる対向的ロバスト性について検討する。実験の結果、訓練済みモデルの微調整後、一般的な攻撃に対して、逆方向の頑健性を大幅に改善できることが判明した。
論文参考訳（メタデータ） (2024-02-06T01:44:38Z)
Identifying and Mitigating Model Failures through Few-shot CLIP-aided Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文参考訳（メタデータ） (2023-12-09T04:43:49Z)
Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。情報不足と後部崩壊という2つの課題に悩まされている。本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文参考訳（メタデータ） (2021-06-16T06:36:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。