Fugu-MT 論文翻訳(概要): AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs

論文の概要: AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs

arxiv url: http://arxiv.org/abs/2501.02135v1
Date: Fri, 03 Jan 2025 23:03:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:50.878887
Title: AVTrustBench: Assessing and Enhancing Reliability and Robustness in Audio-Visual LLMs
Title（参考訳）: AVTrustBench:LLMにおける信頼性とロバスト性の評価と向上
Authors: Sanjoy Chowdhury, Sayan Nag, Subhrajyoti Dasgupta, Yaoting Wang, Mohamed Elhoseiny, Ruohan Gao, Dinesh Manocha,
Abstract要約: 我々は9つの細工されたタスクにまたがる600万のサンプルからなるAudio-Visual Trustworthiness Assessment Benchmark (AVTrustBench)を紹介する。ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。その結果、既存のモデルのほとんどは、人間のような理解を達成できないことが判明した。
参考スコア（独自算出の注目度）: 70.4578433679737
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the rapid advancement of Multi-modal Large Language Models (MLLMs), several diagnostic benchmarks have recently been developed to assess these models' multi-modal reasoning proficiency. However, these benchmarks are restricted to assessing primarily the visual aspect and do not examine the holistic audio-visual (AV) understanding. Moreover, currently, there are no benchmarks that investigate the capabilities of AVLLMs to calibrate their responses when presented with perturbed inputs. To this end, we introduce Audio-Visual Trustworthiness assessment Benchmark (AVTrustBench), comprising 600K samples spanning over 9 meticulously crafted tasks, evaluating the capabilities of AVLLMs across three distinct dimensions: Adversarial attack, Compositional reasoning, and Modality-specific dependency. Using our benchmark we extensively evaluate 13 state-of-the-art AVLLMs. The findings reveal that the majority of existing models fall significantly short of achieving human-like comprehension, offering valuable insights for future research directions. To alleviate the limitations in the existing approaches, we further propose a robust, model-agnostic calibrated audio-visual preference optimization based training strategy CAVPref, obtaining a gain up to 30.19% across all 9 tasks. We will publicly release our code and benchmark to facilitate future research in this direction.
Abstract（参考訳）: MLLM(Multi-modal Large Language Models)の急速な進歩に伴い、これらのモデルのマルチモーダル推論能力を評価するために、いくつかの診断ベンチマークが最近開発された。しかしながら、これらのベンチマークは視覚的な側面を主に評価することに限定されており、全体的なオーディオ視覚(AV)理解を検証していない。さらに、現在、摂動入力が提示されたときの応答を校正するAVLLMの能力を調査するベンチマークは存在しない。この目的のために、9つの細工されたタスクにまたがる600Kサンプルからなるオーディオ・ビジュアル・トラストネス評価ベンチマーク(AVTrustBench)を導入し、敵攻撃、構成的推論、モダリティ依存の3つの異なる次元にわたるAVLLMの能力を評価する。ベンチマークを用いて、13の最先端AVLLMを広範囲に評価した。その結果、既存のモデルのほとんどは人間のような理解を達成できないことが分かり、将来の研究の方向性に価値ある洞察を与えている。既存の手法の限界を緩和するため、より堅牢でモデルに依存しないオーディオ-視覚優先最適化に基づくトレーニング戦略CAVPrefを提案し、9つのタスクで最大30.19%のゲインを得る。この方向への今後の研究を促進するため、コードとベンチマークを公開します。

関連論文リスト

Vision-aligned Latent Reasoning for Multi-modal Large Language Model [82.26044667101011]
VaLR(Vision-aligned Latent Reasoning)は、思考の連鎖の推論ステップの前に動的に視覚対応の潜在トークンを生成するフレームワークである。 VaLRは、MLLMの中間埋め込みを視覚エンコーダのものと整合させることにより、推論中の視覚的知識の保存を訓練する。
論文参考訳（メタデータ） (2026-02-04T12:04:02Z)
The Art of Saying "Maybe": A Conformal Lens for Uncertainty Benchmarking in VLMs [6.159508352834952]
VLM(Vision-Language Models)は、科学的および推論タスクにおける複雑な視覚的理解において、顕著な進歩を遂げている。 3つの異なるスコアリング機能を持つ6つのマルチモーダルデータセットにわたる16の最先端のVLMを評価し、包括的不確実性ベンチマーク研究を行う。
論文参考訳（メタデータ） (2025-09-16T08:17:39Z)
VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments [25.534332634912005]
マルチエージェント環境における戦略的能力のための視覚言語モデルを評価するベンチマークであるVisual Strategic Bench (VS-Bench)を紹介する。 VLMエージェントの性能は、要素認識精度で測定された知覚、次のアクション予測精度で測定された戦略的推論、正規化エピソードリターンで測定された意思決定の3つの次元にわたって評価される。
論文参考訳（メタデータ） (2025-06-03T02:57:38Z)
Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models [15.158475816860427]
不確実性は、現代のAIシステムの信頼性と信頼性を評価するために不可欠である。モデルが自然言語を通して信頼を表現する言語化された不確実性は、軽量で解釈可能なソリューションとして現れています。しかし、視覚言語モデル(VLM)におけるその効果は未だ十分に研究されていない。
論文参考訳（メタデータ） (2025-05-26T17:16:36Z)
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文参考訳（メタデータ） (2025-04-21T17:59:53Z)
Aurelia: Test-time Reasoning Distillation in Audio-Visual LLMs [72.5567678952768]
AURELIA(オーレリア)は、アクターに批判的なオーディオヴィジュアル(AV)推論フレームワークである。構造体を蒸留し、試験時に段階的にAVLLMに蒸留する。 AURELIAを用いて、100%の相対的な改善を実現し、その効果を実証した。
論文参考訳（メタデータ） (2025-03-29T20:42:29Z)
Towards Lighter and Robust Evaluation for Retrieval Augmented Generation [1.631189594086952]
本稿では,RAG幻覚評価のためのオープンウェイトモデルの興味を示す研究を提案する。我々は、より小さく、量子化されたLCMを用いて、アクセス可能で解釈可能な計量を提供する軽量なアプローチを開発する。このスコアは、意思決定の信頼性に疑問を呈し、新しいAUCメトリクスを開発するためのしきい値を探ることを可能にする。
論文参考訳（メタデータ） (2025-03-20T13:58:32Z)
Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models [82.92771279118888]
マルチモーダル報酬モデルを評価するためのエキスパートアノテートベンチマークであるMultimodal RewardBenchを紹介する。我々のデータセットは、様々な視覚言語モデルから収集された5,211個の注釈付き(プロンプト、選択された応答、拒否された応答)三つ子からなる。 Gemini 1.5 ProやClaude 3.5 Sonnetといったトップパフォーマンスモデルでさえ、全体的な精度は72%に過ぎません。
論文参考訳（メタデータ） (2025-02-20T01:48:13Z)
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。現在のアセスメント手法は、従来のタスクからAIアノテートされた好みラベルに依存している。 VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがるベンチマークである。
論文参考訳（メタデータ） (2024-11-26T14:08:34Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文参考訳（メタデータ） (2024-06-18T16:50:38Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文参考訳（メタデータ） (2024-05-18T02:21:32Z)
SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension [27.53415400454066]
生成モデルを評価するためにSEED-Benchというベンチマークを導入する。 SEED-Benchは、正確な人間のアノテーションを持つ19Kの複数の選択質問からなる。空間的および時間的理解の両面を網羅し,全12次元にわたる18モデルの性能評価を行った。
論文参考訳（メタデータ） (2023-07-30T04:25:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。