論文の概要: KOALA: Knowledge Conflict Augmentations for Robustness in Vision Language Models
- arxiv url: http://arxiv.org/abs/2502.14908v1
- Date: Wed, 19 Feb 2025 00:26:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:11:54.141348
- Title: KOALA: Knowledge Conflict Augmentations for Robustness in Vision Language Models
- Title(参考訳): KOALA:視覚言語モデルにおけるロバストネスのための知識紛争の増大
- Authors: Peter Carragher, Nikitha Rao, Abhinand Jha, R Raghav, Kathleen M. Carley,
- Abstract要約: segsubは、画像ソースに標的摂動を適用して、視覚言語モデルの堅牢性を研究し改善するフレームワークである。
以前の知見とは対照的に,VLMは画像摂動に強い。
GPT-4oによる幻覚と画像コンテキストの関連性を見出した。
- 参考スコア(独自算出の注目度): 6.52323086990482
- License:
- Abstract: The robustness of large language models (LLMs) against knowledge conflicts in unimodal question answering systems has been well studied. However, the effect of conflicts in information sources on vision language models (VLMs) in multimodal settings has not yet been explored. In this work, we propose \segsub, a framework that applies targeted perturbations to image sources to study and improve the robustness of VLMs against three different types of knowledge conflicts, namely parametric, source, and counterfactual conflicts. Contrary to prior findings that showed that LLMs are sensitive to parametric conflicts arising from textual perturbations, we find VLMs are largely robust to image perturbation. On the other hand, VLMs perform poorly on counterfactual examples (<30% accuracy) and fail to reason over source conflicts (<1% accuracy). We also find a link between hallucinations and image context, with GPT-4o prone to hallucination when presented with highly contextualized counterfactual examples. While challenges persist with source conflicts, finetuning models significantly improves reasoning over counterfactual samples. Our findings highlight the need for VLM training methodologies that enhance their reasoning capabilities, particularly in addressing complex knowledge conflicts between multimodal sources.
- Abstract(参考訳): 単一質問応答システムにおける知識衝突に対する大規模言語モデル(LLM)のロバスト性はよく研究されている。
しかし,マルチモーダル環境における視覚言語モデル(VLM)に対する情報ソースの衝突の影響については検討されていない。
本稿では,画像ソースに目標摂動を適用して,パラメトリック,ソース,ファクトファクトコンフリクトの3種類の知識コンフリクトに対して,VLMの堅牢性を研究・改善するフレームワークである \segsubを提案する。
テキストの摂動から生じるパラメトリックコンフリクトにLLMが敏感であることを示す以前の知見とは対照的に,VLMは画像摂動に対して大きく頑健である。
一方、VLMは反ファクト的な例(30%精度)では性能が悪く、ソースの衝突を原因としない(<1%精度)。
また, 幻覚と画像コンテキストの関連性も見出され, GPT-4oは, 高度に文脈化された対実例を提示すると幻覚に陥る傾向を示した。
課題はソースの衝突に留まるが、微調整モデルは反実的なサンプルに対する推論を大幅に改善する。
本研究は,特にマルチモーダルソース間の複雑な知識衝突に対処するために,その推論能力を高めるVLMトレーニング手法の必要性を強調した。
関連論文リスト
- Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。
この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。
本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - Analysing the Residual Stream of Language Models Under Knowledge Conflicts [23.96385393039587]
大規模言語モデル(LLM)は、そのパラメータに大量の事実知識を格納することができる。
しかし、それらのパラメトリック知識は、文脈で提供される情報と矛盾する可能性がある。
これは、古い情報や誤った情報への依存など、望ましくないモデル行動を引き起こす可能性がある。
論文 参考訳(メタデータ) (2024-10-21T15:12:51Z) - Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベルの視覚知識衝突の問題について考察する。
MLLMのコンフリクトのシミュレーションと評価を目的としたベンチマークを確立するため,人間のループ品質制御を付加した自動パイプラインを導入する。
各種モデルファミリーにおける9つの代表MLLMのコンフリクト分解能を評価し,テキストクエリに顕著なオーバー信頼度を求める。
論文 参考訳(メタデータ) (2024-10-10T17:31:17Z) - ECon: On the Detection and Resolution of Evidence Conflicts [56.89209046429291]
大規模言語モデル(LLM)の台頭は意思決定システムにおける情報の質に大きな影響を与えている。
本研究では,実世界の誤情報シナリオをシミュレートするために,多様で検証された証拠衝突を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:41:17Z) - Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models [33.76903352835436]
LVLM(Large Vision-Language Models)は、マルチモーダル入力をキャプチャし、推論する能力を示す。
これらのモデルは、そのビジョンと言語コンポーネント間の表現された知識の不整合から生じるパラメトリックな知識の衝突を招きやすい。
我々は、それらを検出し、解釈し、緩和するための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-04T17:59:28Z) - AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge [57.66282463340297]
知識の衝突は、大きな言語モデル(LLM)の文脈における情報と、そのパラメータに格納された知識との相違から生じる。
コンフリクトの度合いに基づいて動的に調整の重みを推定する,AdaCADと呼ばれる細粒度なインスタンスレベルのアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-11T16:35:18Z) - ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM [36.332500824079844]
大規模言語モデル (LLM) は、多くの分野にわたって顕著な進歩を遂げてきたが、知識紛争の重大な問題は研究されることはめったにない。
我々は3つの側面から知識衝突を評価するために開発された最初の総合ベンチマークであるConflictBankを紹介する。
本研究は, 誤情報, 時間的相違, 意味的相違から生じる対立を慎重に分析し, 4つのモデルファミリーと12個のLLMインスタンスに分類した。
論文 参考訳(メタデータ) (2024-08-22T02:33:13Z) - Resolving Knowledge Conflicts in Large Language Models [46.903549751371415]
大規模言語モデル(LLM)はしばしば知識の衝突に遭遇する。
知識衝突が発生した場合のLLMのデシラタとは何か,既存のLLMがそれを満たすのかを問う。
文脈知識の矛盾をシミュレートする評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:57:45Z) - Trusting Your Evidence: Hallucinate Less with Context-aware Decoding [91.91468712398385]
言語モデル(LM)は入力コンテキストに十分な注意を払うのに苦労し、不信または幻覚を含むテキストを生成する。
本稿では,文脈対応デコード(CAD)を提案する。このデコーディングは,モデルがコンテキストと無コンテキストで使用される場合の確率の差を増幅するコントラスト的な出力分布に従う。
論文 参考訳(メタデータ) (2023-05-24T05:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。