論文の概要: Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information
- arxiv url: http://arxiv.org/abs/2403.15048v3
- Date: Wed, 22 Jan 2025 05:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:52:54.676212
- Title: Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information
- Title(参考訳): 詩情報を用いたカルトーン文字画像上での視覚幻覚認識のためのVLM
- Authors: Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Yonghoon Jung, Sanghyun Seo,
- Abstract要約: 視覚言語モデル(VLM)を用いた意味幻覚検出システムを提案する。
我々は、プロンプト、RGB画像、ポーズ情報を超えて視覚データをさらに入力することで、VLMの全体的な性能を改善する、ポーズ認識型インコンテキスト・ビジュアル・ラーニング(PA-ICVL)を導入する。
本研究は、コンテキスト内視覚学習による視覚幻覚を緩和し、非フォトリアリスティック領域における潜在能力を拡大することにより、TTIモデルの現実世界への応用に向けての能力を向上させる。
- 参考スコア(独自算出の注目度): 5.501684533538496
- License:
- Abstract: Leveraging large-scale Text-to-Image (TTI) models have become a common technique for generating exemplar or training dataset in the fields of image synthesis, video editing, 3D reconstruction. However, semantic structural visual hallucinations involving perceptually severe defects remain a concern, especially in the domain of non-photorealistic rendering (NPR) such as cartoons and pixelization-style character. To detect these hallucinations in NPR, We propose a novel semantic structural hallucination detection system using Vision-Language Model (VLM). Our approach is to leverage the emerging capability of large language model, in-context learning which denotes that VLM has seen some examples by user for specific downstream task, here hallucination detection. Based on in-context learning, we introduce pose-aware in-context visual learning (PA-ICVL) which improve the overall performance of VLM by further inputting visual data beyond prompts, RGB images and pose information. By incorporating pose guidance, we enable VLMs to make more accurate decisions. Experimental results demonstrate significant improvements in identifying visual hallucinations compared to baseline methods relying solely on RGB images. Within selected two VLMs, GPT-4v, Gemini pro vision, our proposed PA-ICVL improves the hallucination detection with 50% to 78%, 57% to 80%, respectively. This research advances a capability of TTI models toward real-world applications by mitigating visual hallucinations via in-context visual learning, expanding their potential in non-photorealistic domains. In addition, it showcase how users can boost the downstream-specialized capability of open VLM by harnessing additional conditions. We collect synthetic cartoon-hallucination dataset with TTI models, this dataset and final tuned VLM will be publicly available.
- Abstract(参考訳): 大規模なテキスト・トゥ・イメージ(TTI)モデルを活用することは、画像合成、ビデオ編集、3D再構成といった分野において、典型的なデータセットやトレーニングデータセットを生成する一般的な技術となっている。
しかし、特に漫画やピクセル化のような非フォトリアリスティックレンダリング(NPR)の領域では、知覚的に深刻な欠陥を含む意味的構造的視覚幻覚が懸念されている。
NPRにおけるこれらの幻覚を検出するために,視覚言語モデル(VLM)を用いた意味的構造幻覚検出システムを提案する。
我々のアプローチは、大規模言語モデルの出現する能力を活用することであり、VLMが特定の下流タスクに対していくつかの例を見てきたことを示すインコンテキスト学習である。
In-context Learningに基づいて、プロンプトやRGB画像、ポーズ情報を超えて視覚データを入力することで、VLMの全体的な性能を改善する、ポーズ認識型インコンテキスト・ビジュアル・ラーニング(PA-ICVL)を導入する。
ポーズガイダンスを取り入れることで、VLMがより正確な決定を行えるようにします。
実験の結果,RGB画像のみに依存したベースライン法に比べて視覚幻覚の同定が有意に改善した。
GPT-4v, Gemini pro vision の2つのVLMにおいて,提案したPA-ICVLは50%から78%,57%,80%で幻覚検出を改善した。
本研究は、コンテキスト内視覚学習による視覚幻覚を緩和し、非フォトリアリスティック領域における潜在能力を拡大することにより、TTIモデルの現実世界への応用に向けての能力を向上させる。
さらに、ユーザが追加条件を活用することで、オープンVLMの下流特化能力を高める方法についても紹介する。
人工マンガ・ハロシン化データセットをTTIモデルで収集し,本データセットと最終調整VLMを公開する。
関連論文リスト
- V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization [21.248617886995103]
トレーニング時の視覚的コンテキスト学習を改善するために,視覚誘導直接選択最適化(V-DPO)を提案する。
分析の結果,V-DPOは画像コントラストの嗜好データからの学習に優れており,視覚的文脈のニュアンスを抽出し理解する能力に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-05T01:24:37Z) - From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling [35.098725056881655]
大型視覚言語モデル(LVLM)は前例のない視覚推論能力を示している。
生成されたテキストは、しばしば視覚入力の不正確な接地に悩まされ、既存のシーン要素の幻覚などのエラーが発生する。
そこで我々は,LVLMの視覚的接地性を高めるために,微粒な報酬モデルを用いた新しいフレームワークViGoRを提案する。
論文 参考訳(メタデータ) (2024-02-09T01:00:14Z) - A Vision Check-up for Language Models [61.852026871772914]
テキストのモデルを用いて、予備的な視覚表現学習システムをどのように訓練するかを示す。
自己教師付き視覚表現学習の実験は、自然画像のセマンティックアセスメントを行うことができる視覚モデルを訓練する可能性を強調している。
論文 参考訳(メタデータ) (2024-01-03T18:09:33Z) - Mitigating Hallucination in Visual Language Models with Visual
Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T09:30:02Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。