論文の概要: Protecting multimodal large language models against misleading visualizations
- arxiv url: http://arxiv.org/abs/2502.20503v3
- Date: Sun, 27 Apr 2025 11:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 18:43:11.204847
- Title: Protecting multimodal large language models against misleading visualizations
- Title(参考訳): 誤解を招くビジュアライゼーションに対する多モーダル大言語モデル保護
- Authors: Jonathan Tonglet, Tinne Tuytelaars, Marie-Francine Moens, Iryna Gurevych,
- Abstract要約: 誤解を招くビジュアライゼーションの性能を改善するための最初の推論時間手法を紹介する。
MLLM問合せ精度は, 平均値からランダム基準値まで低下することがわかった。
- 参考スコア(独自算出の注目度): 94.71976205962527
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Visualizations play a pivotal role in daily communication in an increasingly data-driven world. Research on multimodal large language models (MLLMs) for automated chart understanding has accelerated massively, with steady improvements on standard benchmarks. However, for MLLMs to be reliable, they must be robust to misleading visualizations, charts that distort the underlying data, leading readers to draw inaccurate conclusions that may support disinformation. Here, we uncover an important vulnerability: MLLM question-answering accuracy on misleading visualizations drops on average to the level of a random baseline. To address this, we introduce the first inference-time methods to improve performance on misleading visualizations, without compromising accuracy on non-misleading ones. The most effective method extracts the underlying data table and uses a text-only LLM to answer the question based on the table. Our findings expose a critical blind spot in current research and establish benchmark results to guide future efforts in reliable MLLMs.
- Abstract(参考訳): 可視化は、ますますデータ駆動の世界における日々のコミュニケーションにおいて重要な役割を果たす。
自動チャート理解のためのマルチモーダル大言語モデル(MLLM)の研究は、標準ベンチマークを安定的に改善し、大幅に加速した。
しかし、MLLMが信頼できるためには、基盤となるデータを歪ませるチャートを誤解を招くような視覚化に堅牢でなければならないため、読者は偽情報を支持する不正確な結論を導き出さなければならない。
誤解を招く視覚化におけるMLLMの質問答え精度は、平均的にランダムなベースラインのレベルに低下する。
そこで本研究では,非ミススリーディングの精度を損なうことなく,非ミススリーディング視覚化の性能を向上させるための最初の推論時間手法を提案する。
最も効果的な方法は、基礎となるデータテーブルを抽出し、テキストのみのLLMを使用して、テーブルに基づいた質問に答える。
本研究は,現在の研究における重要な盲点を明らかにし,信頼性MLLMの今後の取り組みを導くためのベンチマーク結果を確立した。
関連論文リスト
- Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering [28.54154468156412]
誤解を招くチャートの視覚化は、知覚を歪め、誤った結論につながる可能性がある。
大規模言語モデル(MLLM)の最近の進歩は、強力なチャート理解能力を示している。
本稿では,ミスリーディングチャート質問回答ベンチマーク(Misleading Chart Question Answering (Misleading ChartQA)ベンチマーク)を紹介する。
論文 参考訳(メタデータ) (2025-03-23T18:56:33Z) - Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon [11.753349115726952]
大規模言語モデル(LLM)は、しばしば公開ベンチマークで優れているように見えるが、これらの高いスコアはデータセット固有のサーフェスキューへの過度な依存を隠蔽する可能性がある。
本稿では,ベンチマークプロンプトを歪ませるメタ評価フレームワークであるChameleon Benchmark Overfit Detector (C-BOD)を紹介する。
セマンティックコンテンツやラベルを保存しながら入力をリフレッシュすることで、C-BODはモデルのパフォーマンスが記憶パターンによって駆動されるかどうかを明らかにする。
論文 参考訳(メタデータ) (2025-02-11T10:43:36Z) - Epistemic Integrity in Large Language Models [11.173637560124828]
大規模な言語モデルは情報ソースにますます頼っているが、偽りや誤解を招く声明の妥当性はユーザーや社会に高いリスクをもたらす。
本稿では,モデルの言語的主張が真の内部的確証を反映しないという,誤校正の重大な問題に直面する。
大規模言語モデルの言語的アサーション性を評価するための,新しい人的ミスアライメント評価と新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-10T17:10:13Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [16.47255259608715]
既存のベンチマークでは,不確実性を評価するために,サンプル毎に5~15回の応答試行が必要になる。
まず、誤解を招くことなくMLLMの応答を収集し、特定の誤解を招く命令によって誤解を招く応答を収集する。
実験の結果,すべてのオープンソースおよびオープンソースMLLMは誤解を招く命令に非常に敏感であり,平均ミスリード率は86%を超えていることがわかった。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance [21.926934384262594]
大きな言語モデル(LLM)は、アノテーションプロセスを強化する新しい機会を提供する。
合意、ラベルの品質、効率の点で、専門家、クラウドソース、LLMベースのアノテーションを比較します。
以上の結果から,ラベルエラーがかなり多く,修正されると,報告されたモデル性能が大幅に上向きに変化することが判明した。
論文 参考訳(メタデータ) (2024-10-24T16:27:03Z) - A Comparative Study of Translation Bias and Accuracy in Multilingual Large Language Models for Cross-Language Claim Verification [1.566834021297545]
本研究は,言語間クレーム検証における翻訳バイアスと大規模言語モデルの有効性を体系的に評価する。
本稿では,事前翻訳と自己翻訳の2つの異なる翻訳手法について検討する。
その結果,低リソース言語では表現不足による直接推論の精度が著しく低いことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T09:02:42Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs [38.93090238335506]
非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。
本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。
以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-06-24T20:29:16Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Found in the Middle: How Language Models Use Long Contexts Better via
Plug-and-Play Positional Encoding [78.36702055076456]
本稿では,マルチスケール位置決めについて紹介する。
(Ms-PoE)は、シンプルで効果的なプラグアンドプレイ方式で、キャパシティを向上させる。
LLMはコンテキストの中央に位置する関連情報を扱う。
論文 参考訳(メタデータ) (2024-03-05T04:58:37Z) - Probing LLMs for hate speech detection: strengths and vulnerabilities [8.626059038321724]
我々は、異なるプロンプト変動、入力情報を活用し、ゼロショット設定で大きな言語モデルを評価する。
GPT-3.5、text-davinci、Flan-T5の3つの大きな言語モデルと、HateXplain、暗黙の憎しみ、ToxicSpansという3つのデータセットを選択します。
パイプライン内のターゲット情報を含む平均すると,モデルの性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-10-19T16:11:02Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - A Prompt Array Keeps the Bias Away: Debiasing Vision-Language Models
with Adversarial Learning [55.96577490779591]
視覚言語モデルは社会的バイアスやステレオタイプを符号化することができる。
これらのマルチモーダル害の測定と緩和には課題がある。
バイアス尺度を調査し,画像テキスト表現にランキング指標を適用した。
論文 参考訳(メタデータ) (2022-03-22T17:59:04Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。