Fugu-MT 論文翻訳(概要): Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs

論文の概要: Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs

arxiv url: http://arxiv.org/abs/2410.08145v1
Date: Thu, 10 Oct 2024 17:31:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 05:05:45.027646
Title: Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs
Title（参考訳）: 視力に関する洞察 : マルチモーダルLLMにおける視覚知識の対立を探る
Authors: Xiaoyuan Liu, Wenxuan Wang, Youliang Yuan, Jen-tse Huang, Qiuzhi Liu, Pinjia He, Zhaopeng Tu,
Abstract要約: 本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベルの視覚知識衝突の問題について考察する。 MLLMのコンフリクトのシミュレーションと評価を目的としたベンチマークを確立するため,人間のループ品質制御を付加した自動パイプラインを導入する。各種モデルファミリーにおける9つの代表MLLMのコンフリクト分解能を評価し,テキストクエリに顕著なオーバー信頼度を求める。
参考スコア（独自算出の注目度）: 55.74117540987519
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper explores the problem of commonsense-level vision-knowledge conflict in Multimodal Large Language Models (MLLMs), where visual information contradicts model's internal commonsense knowledge (see Figure 1). To study this issue, we introduce an automated pipeline, augmented with human-in-the-loop quality control, to establish a benchmark aimed at simulating and assessing the conflicts in MLLMs. Utilizing this pipeline, we have crafted a diagnostic benchmark comprising 374 original images and 1,122 high-quality question-answer (QA) pairs. This benchmark covers two types of conflict target and three question difficulty levels, providing a thorough assessment tool. Through this benchmark, we evaluate the conflict-resolution capabilities of nine representative MLLMs across various model families and find a noticeable over-reliance on textual queries. Drawing on these findings, we propose a novel prompting strategy, "Focus-on-Vision" (FoV), which markedly enhances MLLMs' ability to favor visual data over conflicting textual knowledge. Our detailed analysis and the newly proposed strategy significantly advance the understanding and mitigating of vision-knowledge conflicts in MLLMs. The data and code are made publicly available.
Abstract（参考訳）: 本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベルの視覚知識衝突の問題について考察する。そこで本研究では,MLLMの競合をシミュレーションし,評価するためのベンチマークを構築するために,人間のループ品質制御を付加した自動パイプラインを提案する。このパイプラインを利用して、374のオリジナル画像と1,122の高品質質問応答(QA)ペアからなる診断ベンチマークを構築した。このベンチマークでは、2種類の競合目標と3つの問題問題レベルをカバーし、徹底的な評価ツールを提供する。本ベンチマークにより,9種類のMLLMのコンフリクト分解能の評価を行い,テキストクエリに顕著なオーバー信頼度を求める。これらの知見をもとに,MLLMがテキスト知識の矛盾に対して視覚的データを好む能力を著しく向上させる新たなプロンプト戦略であるFocus-on-Vision(FoV)を提案する。本研究の詳細な分析と新たな戦略は,MLLMにおける視覚知識紛争の理解と緩和を著しく進めるものである。データとコードは公開されています。

関連論文リスト

Exploring and Evaluating Multimodal Knowledge Reasoning Consistency of Multimodal Large Language Models [52.569132872560814]
マルチモーダルな大言語モデル(MLLM)は、テキストとビジョンの理解を深め、大きなブレークスルーを達成した。しかし、現在のMLLMは、マルチモーダルな知識推論において、これらのモダリティを効果的に統合する上での課題に直面している。 MLLMにおけるマルチモーダル知識推論における一貫性劣化の程度を解析・比較する。
論文参考訳（メタデータ） (2025-03-03T09:01:51Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。 VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。 GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
KOALA: Knowledge Conflict Augmentations for Robustness in Vision Language Models [6.52323086990482]
segsubは、画像ソースに標的摂動を適用して、視覚言語モデルの堅牢性を研究し改善するフレームワークである。以前の知見とは対照的に,VLMは画像摂動に強い。 GPT-4oによる幻覚と画像コンテキストの関連性を見出した。
論文参考訳（メタデータ） (2025-02-19T00:26:38Z)
Is Cognition consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding [15.828455477224516]
マルチモーダルタスクとして、文書理解には知覚能力と認知能力の両方を持つモデルが必要である。本稿では,認知と知覚の対立を認知と知覚の対立(C&P)として定義する。本稿では,C&Pの知識紛争を軽減するために,マルチモーダル知識一貫性ファインタニング(Multimodal Knowledge Consistency Fine-tuning)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-12T11:28:50Z)
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。本研究は,幻覚に対する2つの重要な要因を明らかにした。私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文参考訳（メタデータ） (2024-10-16T17:59:02Z)
Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。 PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文参考訳（メタデータ） (2024-10-06T20:35:41Z)
ECon: On the Detection and Resolution of Evidence Conflicts [56.89209046429291]
大規模言語モデル(LLM)の台頭は意思決定システムにおける情報の質に大きな影響を与えている。本研究では,実世界の誤情報シナリオをシミュレートするために,多様で検証された証拠衝突を生成する手法を提案する。
論文参考訳（メタデータ） (2024-10-05T07:41:17Z)
Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models [33.76903352835436]
LVLM(Large Vision-Language Models)は、マルチモーダル入力をキャプチャし、推論する能力を示す。これらのモデルは、そのビジョンと言語コンポーネント間の表現された知識の不整合から生じるパラメトリックな知識の衝突を招きやすい。我々は、それらを検出し、解釈し、緩和するための体系的なアプローチを提案する。
論文参考訳（メタデータ） (2024-10-04T17:59:28Z)
ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM [36.332500824079844]
大規模言語モデル (LLM) は、多くの分野にわたって顕著な進歩を遂げてきたが、知識紛争の重大な問題は研究されることはめったにない。我々は3つの側面から知識衝突を評価するために開発された最初の総合ベンチマークであるConflictBankを紹介する。本研究は, 誤情報, 時間的相違, 意味的相違から生じる対立を慎重に分析し, 4つのモデルファミリーと12個のLLMインスタンスに分類した。
論文参考訳（メタデータ） (2024-08-22T02:33:13Z)
MMRel: A Relation Understanding Benchmark in the MLLM Era [72.95901753186227]
MMRel(Multi-Modal Relation Understanding)は、オブジェクト間の関係に関する大規模で高品質で多様なデータを特徴付けるベンチマークである。 MMRelは、関係理解に基づくMLLMの評価や、関係理解能力を高めるための微調整MLLMに最適である。
論文参考訳（メタデータ） (2024-06-13T13:51:59Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Knowledge Conflicts for LLMs: A Survey [24.731074825915833]
調査では、コンテキストメモリ、コンテキスト間、メモリ内コンフリクトの3つのカテゴリに焦点が当てられている。これらの対立は、大規模言語モデルの信頼性と性能に大きな影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2024-03-13T08:02:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。