Fugu-MT 論文翻訳(概要): Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios

論文の概要: Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios

arxiv url: http://arxiv.org/abs/2411.02708v1
Date: Tue, 05 Nov 2024 01:11:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.429415
Title: Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios
Title（参考訳）: MLLMにおける応答不確かさの探索--ミスリーディングシナリオによる実証的評価
Authors: Yunkai Dang, Mengxi Gao, Yibo Yan, Xin Zou, Yanggan Gu, Aiwei Liu, Xuming Hu,
Abstract要約: 既存のベンチマークでは,不確実性を評価するために,サンプル毎に5～15回の応答試行が必要になる。まず、誤解を招くことなくMLLMの応答を収集し、特定の誤解を招く命令によって誤解を招く応答を収集する。実験の結果,すべてのオープンソースおよびオープンソースMLLMは誤解を招く命令に非常に敏感であり,平均ミスリード率は86%を超えていることがわかった。
参考スコア（独自算出の注目度）: 16.47255259608715
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ensuring that Multimodal Large Language Models (MLLMs) maintain consistency in their responses is essential for developing trustworthy multimodal intelligence. However, existing benchmarks include many samples where all MLLMs \textit{exhibit high response uncertainty when encountering misleading information}, requiring even 5-15 response attempts per sample to effectively assess uncertainty. Therefore, we propose a two-stage pipeline: first, we collect MLLMs' responses without misleading information, and then gather misleading ones via specific misleading instructions. By calculating the misleading rate, and capturing both correct-to-incorrect and incorrect-to-correct shifts between the two sets of responses, we can effectively metric the model's response uncertainty. Eventually, we establish a \textbf{\underline{M}}ultimodal \textbf{\underline{U}}ncertainty \textbf{\underline{B}}enchmark (\textbf{MUB}) that employs both explicit and implicit misleading instructions to comprehensively assess the vulnerability of MLLMs across diverse domains. Our experiments reveal that all open-source and close-source MLLMs are highly susceptible to misleading instructions, with an average misleading rate exceeding 86\%. To enhance the robustness of MLLMs, we further fine-tune all open-source MLLMs by incorporating explicit and implicit misleading data, which demonstrates a significant reduction in misleading rates. Our code is available at: \href{https://github.com/Yunkai696/MUB}{https://github.com/Yunkai696/MUB}
Abstract（参考訳）: マルチモーダル言語モデル(MLLM)が応答の一貫性を維持することは、信頼できるマルチモーダルインテリジェンスを開発する上で不可欠である。しかし、既存のベンチマークには、すべてのMLLMs \textit{exhibit high response uncertainty} が誤った情報に遭遇した場合に高い応答不確実性を示す多くのサンプルが含まれている。そこで,2段階のパイプラインを提案する。まず,誤解を招くことなくMLLMの応答を収集する。誤解率を計算し, 正誤と誤誤の両応答のずれを捉えることにより, モデルの応答の不確かさを効果的に評価することができる。最終的に、さまざまなドメインにわたるMLLMの脆弱性を包括的に評価するために、明示的かつ暗黙的な誤解を招く命令の両方を用いる、 \textbf{\underline{M}}ultimodal \textbf{\underline{U}}ncertainty \textbf{\underline{B}}enchmark (\textbf{MUB})を確立する。実験の結果,すべてのオープンソースおよびオープンソースMLLMは誤解を招く命令に非常に敏感であり,平均ミスリード率は86%を超えていることがわかった。 MLLMのロバスト性を高めるために、明示的で暗黙的な誤解を招くデータを組み込むことにより、すべてのオープンソースMLLMをさらに微調整し、誤解を招く率を大幅に低下させることを示す。我々のコードは以下の通りである。 \href{https://github.com/Yunkai696/MUB}{https://github.com/Yunkai696/MUB}

関連論文リスト

Protecting multimodal large language models against misleading visualizations [94.71976205962527]
誤解を招くビジュアライゼーションの性能を改善するための最初の推論時間手法を紹介する。 MLLM問合せ精度は, 平均値からランダム基準値まで低下することがわかった。
論文参考訳（メタデータ） (2025-02-27T20:22:34Z)
Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-01-02T16:38:21Z)
Drawing the Line: Enhancing Trustworthiness of MLLMs Through the Power of Refusal [21.342265570934995]
既存の手法はMLLMの信頼性を高める手段としての拒絶応答の重要性をほとんど見落としてきた。 InBoL(Information Boundary-Aware Learning Framework)は,MLLMが不十分な情報に遭遇する際のユーザクエリの応答を拒否する,新たなアプローチである。このフレームワークでは、包括的なデータ生成パイプラインと、適切な拒絶応答を提供するモデルの能力を改善するためのトレーニング戦略が導入された。
論文参考訳（メタデータ） (2024-12-15T14:17:14Z)
mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。 mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文参考訳（メタデータ） (2024-11-22T16:15:50Z)
MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。 LLM評価器によって予測されるエラーアノテーションの品質を高めるために,ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを導入する。
論文参考訳（メタデータ） (2024-09-22T06:43:40Z)
CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。本稿では,新しい検証フレームワークであるCaLMを紹介する。我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文参考訳（メタデータ） (2024-06-08T06:04:55Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Semantic Density: Uncertainty Quantification for Large Language Models through Confidence Measurement in Semantic Space [14.715989394285238]
既存のLarge Language Models (LLM) には、ユーザが生成するレスポンスごとに不確実性/信頼度を計測するための固有の機能がない。本稿では,これらの課題に対処する新しい枠組みを提案する。意味密度は、意味空間における確率分布の観点から各応答の不確かさ/自信情報を抽出する。
論文参考訳（メタデータ） (2024-05-22T17:13:49Z)
CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。 LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文参考訳（メタデータ） (2024-04-19T20:11:12Z)
Multicalibration for Confidence Scoring in LLMs [6.948522445499497]
本稿では,大規模言語モデル(LLM)が生成する出力に対して,解釈可能かつ信頼性の高い信頼スコアを得るために,"マルチバリデーション(multicalibration)"を用いることを提案する。埋め込み空間内のクラスタリングと「自己アノテーション」という2つの手法を用いて、正しさの確率と相関するプロンプト/コンプリートペアのグルーピングを形成する方法を示す。我々は,従来の手法と比較して,キャリブレーションと精度の両方の細かな測定精度を大幅に向上させる信頼性スコアを得る方法を示す。
論文参考訳（メタデータ） (2024-04-06T17:33:37Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Quantifying Uncertainty in Answers from any Language Model and Enhancing their Trustworthiness [16.35655151252159]
本稿では,事前訓練された大規模言語モデルから悪い,投機的な回答を検出するBSDetectorを紹介する。我々の不確実性定量化技術は,ブラックボックスAPIを通じてのみアクセス可能な LLM に対して有効である。
論文参考訳（メタデータ） (2023-08-30T17:53:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。