論文の概要: Is Cognition consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding
- arxiv url: http://arxiv.org/abs/2411.07722v1
- Date: Tue, 12 Nov 2024 11:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:21:35.015455
- Title: Is Cognition consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding
- Title(参考訳): 認知は知覚と一致しているか? 文書理解におけるマルチモーダル知識紛争の評価と軽減
- Authors: Zirui Shao, Chuwei Luo, Zhaoqing Zhu, Hangdi Xing, Zhi Yu, Qi Zheng, Jiajun Bu,
- Abstract要約: マルチモーダルタスクとして、文書理解には知覚能力と認知能力の両方を持つモデルが必要である。
本稿では,認知と知覚の対立を認知と知覚の対立(C&P)として定義する。
本稿では,C&Pの知識紛争を軽減するために,マルチモーダル知識一貫性ファインタニング(Multimodal Knowledge Consistency Fine-tuning)と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 15.828455477224516
- License:
- Abstract: Multimodal large language models (MLLMs) have shown impressive capabilities in document understanding, a rapidly growing research area with significant industrial demand in recent years. As a multimodal task, document understanding requires models to possess both perceptual and cognitive abilities. However, current MLLMs often face conflicts between perception and cognition. Taking a document VQA task (cognition) as an example, an MLLM might generate answers that do not match the corresponding visual content identified by its OCR (perception). This conflict suggests that the MLLM might struggle to establish an intrinsic connection between the information it "sees" and what it "understands." Such conflicts challenge the intuitive notion that cognition is consistent with perception, hindering the performance and explainability of MLLMs. In this paper, we define the conflicts between cognition and perception as Cognition and Perception (C&P) knowledge conflicts, a form of multimodal knowledge conflicts, and systematically assess them with a focus on document understanding. Our analysis reveals that even GPT-4o, a leading MLLM, achieves only 68.6% C&P consistency. To mitigate the C&P knowledge conflicts, we propose a novel method called Multimodal Knowledge Consistency Fine-tuning. This method first ensures task-specific consistency and then connects the cognitive and perceptual knowledge. Our method significantly reduces C&P knowledge conflicts across all tested MLLMs and enhances their performance in both cognitive and perceptual tasks in most scenarios.
- Abstract(参考訳): マルチモーダルな大規模言語モデル (MLLM) は文書理解において顕著な能力を発揮している。
マルチモーダルタスクとして、文書理解には知覚能力と認知能力の両方を持つモデルが必要である。
しかし、現在のMLLMは認識と認知の対立に直面していることが多い。
文書VQAタスク(認識)を例にとると、MLLMはそのOCR(知覚)によって識別される対応する視覚的内容と一致しない回答を生成する。
この対立は、MLLMが「見る」情報と「理解する」情報の間に本質的なつながりを確立するのに苦労していることを示唆している。
このような対立は、認知は知覚と一致しているという直感的な概念に挑戦し、MLLMの性能と説明可能性を妨げる。
本稿では,認知と知覚の対立を,認知と知覚(C&P)の知識対立,多モーダルな知識対立の一形態として定義し,文書理解に着目して体系的に評価する。
MLLMをリードするGPT-4oでさえ68.6%のC&P一貫性しか得られていない。
そこで本研究では,C&P知識の対立を軽減するために,マルチモーダル知識一貫性ファインタニング(Multimodal Knowledge Consistency Fine-tuning)という手法を提案する。
この方法はまずタスク固有の一貫性を保証し、認知的知識と知覚的知識を接続する。
本手法は,全てのMLLMテストにおけるC&P知識の相違を著しく低減し,ほとんどのシナリオにおいて認知的タスクと知覚的タスクの両方において,その性能を向上させる。
関連論文リスト
- Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベルの視覚知識衝突の問題について考察する。
MLLMのコンフリクトのシミュレーションと評価を目的としたベンチマークを確立するため,人間のループ品質制御を付加した自動パイプラインを導入する。
各種モデルファミリーにおける9つの代表MLLMのコンフリクト分解能を評価し,テキストクエリに顕著なオーバー信頼度を求める。
論文 参考訳(メタデータ) (2024-10-10T17:31:17Z) - Towards Unified Multimodal Editing with Enhanced Knowledge Collaboration [107.31481207855835]
内在的知識の編集や外部知識の活用といった現在の手法は、それぞれに長所と短所がある。
固有知識編集と外部知識を活用した統一的な視点を確立するための,新しいマルチモーダル編集手法UniKEを提案する。
論文 参考訳(メタデータ) (2024-09-30T02:13:53Z) - ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM [36.332500824079844]
大規模言語モデル (LLM) は、多くの分野にわたって顕著な進歩を遂げてきたが、知識紛争の重大な問題は研究されることはめったにない。
我々は3つの側面から知識衝突を評価するために開発された最初の総合ベンチマークであるConflictBankを紹介する。
本研究は, 誤情報, 時間的相違, 意味的相違から生じる対立を慎重に分析し, 4つのモデルファミリーと12個のLLMインスタンスに分類した。
論文 参考訳(メタデータ) (2024-08-22T02:33:13Z) - Untangle the KNOT: Interweaving Conflicting Knowledge and Reasoning Skills in Large Language Models [51.72963030032491]
大規模言語モデル(LLM)の知識文書は、時代遅れや誤った知識のためにLLMの記憶と矛盾する可能性がある。
我々は,知識紛争解決のための新しいデータセットKNOTを構築した。
論文 参考訳(メタデータ) (2024-04-04T16:40:11Z) - Knowledge Conflicts for LLMs: A Survey [24.731074825915833]
調査では、コンテキストメモリ、コンテキスト間、メモリ内コンフリクトの3つのカテゴリに焦点が当てられている。
これらの対立は、大規模言語モデルの信頼性と性能に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2024-03-13T08:02:23Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Don't Hallucinate, Abstain: Identifying LLM Knowledge Gaps via Multi-LLM Collaboration [39.603649838876294]
本研究では,LLMの知識ギャップを同定し,知識ギャップが存在する場合の質問への回答を控えるアプローチについて検討する。
保留集合上での自己回帰と過度信頼の失敗により、我々は2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-01T06:11:49Z) - Resolving Knowledge Conflicts in Large Language Models [46.903549751371415]
大規模言語モデル(LLM)はしばしば知識の衝突に遭遇する。
知識衝突が発生した場合のLLMのデシラタとは何か,既存のLLMがそれを満たすのかを問う。
文脈知識の矛盾をシミュレートする評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:57:45Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。