論文の概要: Protecting multimodal large language models against misleading visualizations
- arxiv url: http://arxiv.org/abs/2502.20503v2
- Date: Wed, 05 Mar 2025 15:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 12:09:31.119422
- Title: Protecting multimodal large language models against misleading visualizations
- Title(参考訳): 誤解を招くビジュアライゼーションに対する多モーダル大言語モデル保護
- Authors: Jonathan Tonglet, Tinne Tuytelaars, Marie-Francine Moens, Iryna Gurevych,
- Abstract要約: そこで本研究では,MLLMの性能向上のための6つの推論時間手法を提案する。
この方法は、誤解を招く可視化の性能を15.4から19.6ポイント向上させる。
- 参考スコア(独自算出の注目度): 94.71976205962527
- License:
- Abstract: We assess the vulnerability of multimodal large language models to misleading visualizations - charts that distort the underlying data using techniques such as truncated or inverted axes, leading readers to draw inaccurate conclusions that may support misinformation or conspiracy theories. Our analysis shows that these distortions severely harm multimodal large language models, reducing their question-answering accuracy to the level of the random baseline. To mitigate this vulnerability, we introduce six inference-time methods to improve performance of MLLMs on misleading visualizations while preserving their accuracy on non-misleading ones. The most effective approach involves (1) extracting the underlying data table and (2) using a text-only large language model to answer questions based on the table. This method improves performance on misleading visualizations by 15.4 to 19.6 percentage points.
- Abstract(参考訳): マルチモーダルな大規模言語モデルの脆弱性を、誤認や陰謀論を裏付ける不正確な結論を読者に導き出すために、歪んだり逆転させたりするような手法を用いて、基礎となるデータを歪ませるチャートとして評価する。
解析の結果、これらの歪みは多モーダルな大言語モデルに深刻なダメージを与え、質問応答精度をランダムなベースラインのレベルまで低下させることがわかった。
この脆弱性を緩和するために、誤解を招く可視化におけるMLLMの性能を改善するための6つの推論時手法を導入する。
最も効果的なアプローチは、(1)基礎となるデータテーブルを抽出し、(2)テキストのみの大規模言語モデルを使用して、テーブルに基づいた質問に答えることである。
この方法は、誤解を招く可視化の性能を15.4から19.6ポイント向上させる。
関連論文リスト
- Visual Exploration of Stopword Probabilities in Topic Models [1.9107347888374506]
停止語除去は多くの機械学習手法において重要な段階である。
不適切な選択または急いで省略された停止語は、最適以下の性能をもたらすだけでなく、モデルの品質にも大きな影響を及ぼす。
本稿では,停止語確率をコーパス固有確率で推定する新しい抽出法を提案する。
論文 参考訳(メタデータ) (2025-01-17T11:59:56Z) - Epistemic Integrity in Large Language Models [11.173637560124828]
大規模な言語モデルは情報ソースにますます頼っているが、偽りや誤解を招く声明の妥当性はユーザーや社会に高いリスクをもたらす。
本稿では,モデルの言語的主張が真の内部的確証を反映しないという,誤校正の重大な問題に直面する。
大規模言語モデルの言語的アサーション性を評価するための,新しい人的ミスアライメント評価と新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-10T17:10:13Z) - A Comparative Study of Translation Bias and Accuracy in Multilingual Large Language Models for Cross-Language Claim Verification [1.566834021297545]
本研究は,言語間クレーム検証における翻訳バイアスと大規模言語モデルの有効性を体系的に評価する。
本稿では,事前翻訳と自己翻訳の2つの異なる翻訳手法について検討する。
その結果,低リソース言語では表現不足による直接推論の精度が著しく低いことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T09:02:42Z) - Probing LLMs for hate speech detection: strengths and vulnerabilities [8.626059038321724]
我々は、異なるプロンプト変動、入力情報を活用し、ゼロショット設定で大きな言語モデルを評価する。
GPT-3.5、text-davinci、Flan-T5の3つの大きな言語モデルと、HateXplain、暗黙の憎しみ、ToxicSpansという3つのデータセットを選択します。
パイプライン内のターゲット情報を含む平均すると,モデルの性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-10-19T16:11:02Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。