論文の概要: Generalization and Hallucination of Large Vision-Language Models through
a Camouflaged Lens
- arxiv url: http://arxiv.org/abs/2311.11273v1
- Date: Sun, 19 Nov 2023 09:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 21:06:15.041847
- Title: Generalization and Hallucination of Large Vision-Language Models through
a Camouflaged Lens
- Title(参考訳): 迷彩レンズによる大型視覚言語モデルの一般化と幻覚
- Authors: Lv Tang, Peng-Tao Jiang, Zhihao Shen, Hao Zhang, Jinwei Chen, Bo Li
- Abstract要約: そこで我々は,LVLMが難易度の高い擬似物体検出シナリオに,学習自由な方法で一般化できるかどうかを検討するために,新しいフレームワークCPVLF(camo-perceptive vision- language framework)を提案する。
LVLM内の幻覚の問題により、誤認識されたシーンで物体を認識でき、反現実的な概念を生み出すことが判明した。
本稿では,視覚と言語の両方の観点から,LVLMのカモフラージュシーンに対する認識を高める視覚知覚の連鎖を提案する。
- 参考スコア(独自算出の注目度): 17.83971951825982
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Vision-Language Model (LVLM) has seen burgeoning development and
increasing attention recently. In this paper, we propose a novel framework,
camo-perceptive vision-language framework (CPVLF), to explore whether LVLM can
generalize to the challenging camouflaged object detection (COD) scenario in a
training-free manner. During the process of generalization, we find that due to
hallucination issues within LVLM, it can erroneously perceive objects in
camouflaged scenes, producing counterfactual concepts. Moreover, as LVLM is not
specifically trained for the precise localization of camouflaged objects, it
exhibits a degree of uncertainty in accurately pinpointing these objects.
Therefore, we propose chain of visual perception, which enhances LVLM's
perception of camouflaged scenes from both linguistic and visual perspectives,
reducing the hallucination issue and improving its capability in accurately
locating camouflaged objects. We validate the effectiveness of CPVLF on three
widely used COD datasets, and the experiments show the potential of LVLM in the
COD task.
- Abstract(参考訳): 大型視覚言語モデル(lvlm)は近年急速に発展し、注目を集めている。
本稿では,LVLM が難易度の高いcamouflaged object detection (COD) シナリオに学習自由な方法で一般化できるかどうかを検討するために,新しいフレームワークであるcamo-perceptive vision- language framework (CPVLF) を提案する。
一般化の過程では、lvlm内の幻覚の問題により、迷彩されたシーンの物体を誤って知覚し、反事実的な概念を生み出すことが分かる。
さらに、LVLMはカモフラージュされた物体の正確な位置決めを特別に訓練されていないため、これらの物体を正確に特定する上で不確実性を示す。
そこで本研究では,言語と視覚の両方の観点からのlvlmのカモフラージュシーンの知覚を増強し,幻覚問題を低減し,カモフラージュ対象を正確に同定する能力を向上させる視覚知覚連鎖を提案する。
我々は,CPVLFが広く使用されている3つのCODデータセットに対して有効であることを検証するとともに,CODタスクにおけるLVLMの可能性を示す。
関連論文リスト
- Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - SAM-COD: SAM-guided Unified Framework for Weakly-Supervised Camouflaged Object Detection [12.915303163650002]
カモフラージュされたオブジェクト検出(COD)手法の多くは、取得するのに時間と労力を要するマスクアノテーションに大きく依存している。
既存の弱教師付きCODアプローチは、完全教師付き手法に比べて性能が著しく劣っている。
我々は、任意の弱教師付きラベルをサポート可能な、SAM-CODと呼ばれる統合CODフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-20T11:49:27Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - CoFiNet: Unveiling Camouflaged Objects with Multi-Scale Finesse [46.79770062391987]
本稿では,CoFiNetというカモフラージュ物体検出手法を提案する。
提案手法は,マルチスケールな特徴融合と抽出に重点を置いており,特にモデルのセグメンテーションの有効性に注目している。
CoFiNetは、すべてのデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-02-03T17:24:55Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Large Model Based Referring Camouflaged Object Detection [51.80619142347807]
Referring camouflaged object detection (Ref-COD)は、テキストまたはビジュアル参照にマッチした特定のcamouflaged objectを分割することを目的とした、最近提案された問題である。
我々のモチベーションは、最近のMLLM(Multimodal Large Language Models)のセマンティックインテリジェンスと本質的な知識をフル活用して、この複雑なタスクを人間的な方法で分解することである。
MLKGと呼ばれるRef-CODのための大規模モデルベースマルチレベル知識誘導型マルチモーダル手法を提案する。
論文 参考訳(メタデータ) (2023-11-28T13:45:09Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion
Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。
本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。
カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文 参考訳(メタデータ) (2023-05-29T07:49:44Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。