Fugu-MT 論文翻訳(概要): SegSub: Evaluating Robustness to Knowledge Conflicts and Hallucinations in Vision-Language Models

論文の概要: SegSub: Evaluating Robustness to Knowledge Conflicts and Hallucinations in Vision-Language Models

arxiv url: http://arxiv.org/abs/2502.14908v2
Date: Fri, 09 May 2025 18:36:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 14:13:12.812077
Title: SegSub: Evaluating Robustness to Knowledge Conflicts and Hallucinations in Vision-Language Models
Title（参考訳）: SegSub:視覚言語モデルにおける知識衝突と幻覚に対するロバスト性の評価
Authors: Peter Carragher, Nikitha Rao, Abhinand Jha, R Raghav, Kathleen M. Carley,
Abstract要約: 視覚言語モデル(VLM)は、高度なマルチモーダル推論を実証するが、知識の衝突に直面した場合には幻覚を起こす傾向がある。本研究は,VLMレジリエンスを知識衝突に対して調査するために,目標画像摂動を適用するフレームワークであるsegsubを紹介する。
参考スコア（独自算出の注目度）: 6.52323086990482
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision language models (VLM) demonstrate sophisticated multimodal reasoning yet are prone to hallucination when confronted with knowledge conflicts, impeding their deployment in information-sensitive contexts. While existing research addresses robustness in unimodal models, the multimodal domain lacks systematic investigation of cross-modal knowledge conflicts. This research introduces \segsub, a framework for applying targeted image perturbations to investigate VLM resilience against knowledge conflicts. Our analysis reveals distinct vulnerability patterns: while VLMs are robust to parametric conflicts (20% adherence rates), they exhibit significant weaknesses in identifying counterfactual conditions (<30% accuracy) and resolving source conflicts (<1% accuracy). Correlations between contextual richness and hallucination rate (r = -0.368, p = 0.003) reveal the kinds of images that are likely to cause hallucinations. Through targeted fine-tuning on our benchmark dataset, we demonstrate improvements in VLM knowledge conflict detection, establishing a foundation for developing hallucination-resilient multimodal systems in information-sensitive environments.
Abstract（参考訳）: 視覚言語モデル(VLM)は、知識の衝突に直面すると幻覚に陥りがちな高度なマルチモーダル推論を示し、情報に敏感な文脈への展開を妨げる。既存の研究は、単モーダルモデルの堅牢性に対処しているが、マルチモーダル領域は、クロスモーダルな知識紛争の体系的な調査を欠いている。本研究は,VLMレジリエンスを知識衝突に対して調査するために,ターゲット画像摂動を適用したフレームワークである \segsub を紹介する。 VLMはパラメトリックコンフリクト(20%の付着率)に対して頑健であるが, 相関条件の同定(30%の精度)とソースコンフリクトの解決(1%の精度)において重大な弱点を示す。文脈的豊かさと幻覚率(r = -0.368, p = 0.003)の相関は幻覚を引き起こす可能性のある画像の種類を明らかにする。ベンチマークデータセットの微調整により、VLM知識衝突検出の改良を実証し、情報に敏感な環境で幻覚耐性を持つマルチモーダルシステムの開発基盤を確立する。

関連論文リスト

When Seeing Overrides Knowing: Disentangling Knowledge Conflicts in Vision-Language Models [13.390492503308792]
我々は,視覚言語モデル(VLM)がモーダル間の衝突を解決するために使用するメカニズムを解析する。私たちは、紛争を制御する小さな首のセットをロジット検査でローカライズします。このような頭部のピンポイントからの注意は、視覚的オーバーライドを駆動する局所化画像領域に向けられ、精度において勾配に基づく属性よりも優れていた。
論文参考訳（メタデータ） (2025-07-18T12:42:30Z)
Robust Multimodal Large Language Models Against Modality Conflict [94.12341487880465]
マルチモーダル大言語モデル(MLLM)は、現実のシナリオにおいて幻覚を起こす傾向がある。我々は、MLLMをジレンマに配置し、幻覚に直接導く異なるモダリティからの入力における固有の矛盾について研究する。モダリティ衝突による幻覚を緩和する3つの方法が提案されている。
論文参考訳（メタデータ） (2025-07-09T11:18:38Z)
Conflicts in Texts: Data, Implications and Challenges [58.03478157713084]
矛盾は、状況の複雑さ、説明と対処が必要な変更、データアノテーションの難しさ、生成された出力の誤りを反映する可能性がある。本調査ではこれらの矛盾を,(1)事実的矛盾,主観的偏見,および複数の視点が矛盾を生じさせるWeb上の自然テキスト,(2)注釈者がモデルトレーニングに影響を及ぼす注釈付きデータ,(3)幻覚と知識の衝突が発生するモデルインタラクションの3つの重要な領域に分類する。我々は、対立する情報をより効果的に推論し、調整できる紛争対応NLPシステムの開発における重要な課題と今後の方向性を強調した。
論文参考訳（メタデータ） (2025-04-28T04:24:01Z)
Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。 RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文参考訳（メタデータ） (2025-04-17T16:46:11Z)
Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文参考訳（メタデータ） (2025-04-02T10:47:07Z)
Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文参考訳（メタデータ） (2025-02-03T18:43:36Z)
Analysing the Residual Stream of Language Models Under Knowledge Conflicts [23.96385393039587]
大規模言語モデル(LLM)は、そのパラメータに大量の事実知識を格納することができる。しかし、それらのパラメトリック知識は、文脈で提供される情報と矛盾する可能性がある。これは、古い情報や誤った情報への依存など、望ましくないモデル行動を引き起こす可能性がある。
論文参考訳（メタデータ） (2024-10-21T15:12:51Z)
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。本研究は,幻覚に対する2つの重要な要因を明らかにした。私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文参考訳（メタデータ） (2024-10-16T17:59:02Z)
Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベルの視覚知識衝突の問題について考察する。 MLLMのコンフリクトのシミュレーションと評価を目的としたベンチマークを確立するため,人間のループ品質制御を付加した自動パイプラインを導入する。各種モデルファミリーにおける9つの代表MLLMのコンフリクト分解能を評価し,テキストクエリに顕著なオーバー信頼度を求める。
論文参考訳（メタデータ） (2024-10-10T17:31:17Z)
ECon: On the Detection and Resolution of Evidence Conflicts [56.89209046429291]
大規模言語モデル(LLM)の台頭は意思決定システムにおける情報の質に大きな影響を与えている。本研究では,実世界の誤情報シナリオをシミュレートするために,多様で検証された証拠衝突を生成する手法を提案する。
論文参考訳（メタデータ） (2024-10-05T07:41:17Z)
Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models [33.76903352835436]
LVLM(Large Vision-Language Models)は、マルチモーダル入力をキャプチャし、推論する能力を示す。これらのモデルは、そのビジョンと言語コンポーネント間の表現された知識の不整合から生じるパラメトリックな知識の衝突を招きやすい。我々は、それらを検出し、解釈し、緩和するための体系的なアプローチを提案する。
論文参考訳（メタデータ） (2024-10-04T17:59:28Z)
AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge [57.66282463340297]
知識の衝突は、大きな言語モデル(LLM)の文脈における情報と、そのパラメータに格納された知識との相違から生じる。コンフリクトの度合いに基づいて動的に調整の重みを推定する,AdaCADと呼ばれる細粒度なインスタンスレベルのアプローチを提案する。
論文参考訳（メタデータ） (2024-09-11T16:35:18Z)
ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM [36.332500824079844]
大規模言語モデル (LLM) は、多くの分野にわたって顕著な進歩を遂げてきたが、知識紛争の重大な問題は研究されることはめったにない。我々は3つの側面から知識衝突を評価するために開発された最初の総合ベンチマークであるConflictBankを紹介する。本研究は, 誤情報, 時間的相違, 意味的相違から生じる対立を慎重に分析し, 4つのモデルファミリーと12個のLLMインスタンスに分類した。
論文参考訳（メタデータ） (2024-08-22T02:33:13Z)
Resolving Knowledge Conflicts in Large Language Models [46.903549751371415]
大規模言語モデル(LLM)はしばしば知識の衝突に遭遇する。知識衝突が発生した場合のLLMのデシラタとは何か,既存のLLMがそれを満たすのかを問う。文脈知識の矛盾をシミュレートする評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-02T06:57:45Z)
Trusting Your Evidence: Hallucinate Less with Context-aware Decoding [91.91468712398385]
言語モデル(LM)は入力コンテキストに十分な注意を払うのに苦労し、不信または幻覚を含むテキストを生成する。本稿では,文脈対応デコード(CAD)を提案する。このデコーディングは,モデルがコンテキストと無コンテキストで使用される場合の確率の差を増幅するコントラスト的な出力分布に従う。
論文参考訳（メタデータ） (2023-05-24T05:19:15Z)
Proactive Pseudo-Intervention: Causally Informed Contrastive Learning For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。 PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文参考訳（メタデータ） (2020-12-06T20:30:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。