論文の概要: Res-Bench: Benchmarking the Robustness of Multimodal Large Language Models to Dynamic Resolution Input
- arxiv url: http://arxiv.org/abs/2510.16926v1
- Date: Sun, 19 Oct 2025 16:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.211905
- Title: Res-Bench: Benchmarking the Robustness of Multimodal Large Language Models to Dynamic Resolution Input
- Title(参考訳): Res-Bench: 動的解像度入力に対するマルチモーダル大言語モデルのロバストさのベンチマーク
- Authors: Chenxu Li, Zhicai Wang, Yuan Sheng, Xingyu Zhu, Yanbin Hao, Xiang Wang,
- Abstract要約: textbfRes-Benchは、12の解像度レベルと6つのコア能力次元にわたる14,400のサンプルからなるベンチマークである。
このフレームワークでは、解像度とパフォーマンスのトレンドを評価するSpearmanの相関と、パフォーマンスのボラティリティを測定するAbsolute/Relative Continuous Error(ACE/RCE)という、複数のロバストネスメトリクスが導入されている。
本分析は,(1)モデル中心およびタスク中心のロバストネス試験,(2)パディングと超解像を含む前処理戦略の調査,(3)安定性向上のための微調整の探索を含む。
- 参考スコア(独自算出の注目度): 25.671340854789236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) increasingly support dynamic image resolutions. However, current evaluation paradigms primarily assess semantic performance, overlooking the critical question of resolution robustness - whether performance remains stable across varying input resolutions. To address this gap, we introduce \textbf{Res-Bench}, a comprehensive benchmark comprising 14,400 samples across 12 resolution levels and six core capability dimensions. We designed a novel evaluation framework that goes beyond traditional accuracy metrics to capture performance stability. This framework introduces multiple robustness metrics: Spearman's correlation for assessing resolution-performance trends, and Absolute/Relative Continuous Error (ACE/RCE) for measuring performance volatility. Using these metrics, we conducted a large-scale evaluation of leading MLLMs. Our analysis encompasses: (1) model-centric and task-centric robustness examination, (2) investigation of preprocessing strategies including padding and super-resolution, and (3) exploration of fine-tuning for stability enhancement.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は動的画像解像度をサポートする。
しかしながら、現在の評価パラダイムは、主にセマンティックパフォーマンスを評価し、様々な入力解像度でパフォーマンスが安定しているかどうかという、解決の堅牢性の重要な問題を見落としている。
このギャップに対処するために、12の解像度レベルと6つのコア能力次元にわたる14,400のサンプルからなる総合的なベンチマークである \textbf{Res-Bench} を導入する。
私たちは、パフォーマンスの安定性を捉えるために、従来の精度メトリクスを超えて、新しい評価フレームワークを設計しました。
このフレームワークでは、解像度とパフォーマンスのトレンドを評価するSpearmanの相関と、パフォーマンスのボラティリティを測定するAbsolute/Relative Continuous Error(ACE/RCE)という、複数のロバストネスメトリクスが導入されている。
これらの指標を用いて,MLLMの大規模評価を行った。
本分析は,(1)モデル中心およびタスク中心のロバストネス試験,(2)パディングと超解像を含む前処理戦略の調査,(3)安定性向上のための微調整の探索を含む。
関連論文リスト
- MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - ARISE: An Adaptive Resolution-Aware Metric for Test-Time Scaling Evaluation in Large Reasoning Models [102.4511331368587]
ARISE(Adaptive Resolution-Aware Scaling Evaluation)は、大規模推論モデルの試験時間スケーリングの有効性を評価するために設計された新しい尺度である。
我々は、様々な領域にわたる最先端の推論モデルを評価する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-10-07T15:10:51Z) - PCRI: Measuring Context Robustness in Multimodal Models for Enterprise Applications [34.58930119882675]
MLLMのロバスト性を定量化する最初の体系的かつ解釈可能なスコアである textbfPatch Context Robustness Index (PCRI) を導入する。
InternVL2-26B や Qwen2VL-72B など,タスク間の一貫したロバスト性を示すモデルはほとんどありません。
論文 参考訳(メタデータ) (2025-09-28T13:39:57Z) - SALMAN: Stability Analysis of Language Models Through the Maps Between Graph-based Manifolds [11.373585987937913]
本研究では,内部パラメータの変更や複雑な摂動に頼らずにモデル安定性を評価する統一的局所(サンプルレベル)ロバストネスフレームワーク(SALMAN)を提案する。
提案手法の中心となるのがDMD(Distance Mapping Distortion)尺度である。
攻撃効率とロバストトレーニングの大幅な向上を示すことによって、我々は、トランスフォーマーベースのNLPシステムの信頼性を向上させるための実用的、モデルに依存しないツールとして、我々のフレームワークを位置づける。
論文 参考訳(メタデータ) (2025-08-23T02:50:55Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Breach in the Shield: Unveiling the Vulnerabilities of Large Language Models [13.216398753024182]
大規模言語モデル(LLMs)と視覚言語モデル(VLMs)は、幅広いタスクで素晴らしいパフォーマンスを実現しています。
本研究では,このような摂動の影響を受けやすいパラメータや入力次元を同定することにより,この脆弱性の原因を特定することを目的とする。
我々は、情報幾何学に根ざし、個々のパラメータと入力次元の感度を定量化する、textbfFI, textbf First order local textbfInfluence という安定性尺度を提案する。
論文 参考訳(メタデータ) (2025-03-28T16:23:59Z) - Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions [8.069858557211132]
大きな言語モデル(LLM)は、様々なタスクにまたがって顕著な機能を示している。
ハイテイクなドメインへのデプロイメントには、複数ラウンドにわたるユーザインタラクションの一貫性と一貫性を備えた動作が必要です。
本稿では,LLM応答整合性の評価と改善のための総合的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-28T11:49:56Z) - AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs [70.4578433679737]
我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。
ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。
その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
論文 参考訳(メタデータ) (2025-01-03T23:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。