論文の概要: Understanding Multimodal Hallucination with Parameter-Free Representation Alignment
- arxiv url: http://arxiv.org/abs/2409.01151v1
- Date: Mon, 2 Sep 2024 10:37:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 07:13:03.207304
- Title: Understanding Multimodal Hallucination with Parameter-Free Representation Alignment
- Title(参考訳): パラメータ自由表現アライメントによるマルチモーダル幻覚の理解
- Authors: Yueqian Wang, Jianxin Liang, Yuxuan Wang, Huishuai Zhang, Dongyan Zhao,
- Abstract要約: 幻覚はマルチモーダル大言語モデル(MLLM)における一般的な問題である
本稿では,MLLMのどの成分が物体幻覚に寄与するかを考察する。
2つの表現系間の類似度を測定するパラメトリック自由表現アライメントメトリック(Pfram)を提案する。
- 参考スコア(独自算出の注目度): 39.039522430361885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination is a common issue in Multimodal Large Language Models (MLLMs), yet the underlying principles remain poorly understood. In this paper, we investigate which components of MLLMs contribute to object hallucinations. To analyze image representations while completely avoiding the influence of all other factors other than the image representation itself, we propose a parametric-free representation alignment metric (Pfram) that can measure the similarities between any two representation systems without requiring additional training parameters. Notably, Pfram can also assess the alignment of a neural representation system with the human representation system, represented by ground-truth annotations of images. By evaluating the alignment with object annotations, we demonstrate that this metric shows strong and consistent correlations with object hallucination across a wide range of state-of-the-art MLLMs, spanning various model architectures and sizes. Furthermore, using this metric, we explore other key issues related to image representations in MLLMs, such as the role of different modules, the impact of textual instructions, and potential improvements including the use of alternative visual encoders. Our code is available at: https://github.com/yellow-binary-tree/Pfram.
- Abstract(参考訳): 幻覚は、MLLM(Multimodal Large Language Models)において一般的な問題であるが、根底にある原則はよく分かっていない。
本稿では,MLLMのどの成分が物体幻覚に寄与するかを考察する。
画像表現自体以外の要素の影響を完全に回避しつつ画像表現を解析するために,任意の2つの表現システム間の類似度を,追加の訓練パラメータを必要とせずに測定できるパラメトリックフリー表現アライメントメトリック(Pfram)を提案する。
特に、Pframは人間の表現システムとニューラル表現システムのアライメントを評価できる。
オブジェクトアノテーションとのアライメントを評価することで、さまざまなモデルアーキテクチャやサイズにまたがる、さまざまな最先端MLLMにおけるオブジェクト幻覚との強い一貫した相関が示されることを示す。
さらに, MLLMにおける画像表現に関する他の重要な課題として, 異なるモジュールの役割, テキスト命令の影響, 代替視覚エンコーダの使用などについて検討する。
私たちのコードは、https://github.com/yellow-binary-tree/Pfram.comで利用可能です。
関連論文リスト
- MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
MLLM(DeCo)の新しい動的補正復号法を提案する。
広範に使用されているベンチマークでDeCoを評価し、ベースラインと比較して幻覚率を大きなマージンで削減できることを実証した。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - Piculet: Specialized Models-Guided Hallucination Decrease for MultiModal Large Language Models [5.5712075816599]
MLLM(Multimodal Large Language Models)は、視覚と言語の間のギャップを埋める上で大きな進歩を遂げた。
しかし、生成したテキストが画像の内容と一致しないMLLMの幻覚は、引き続き大きな課題である。
MLLMの入力表現を強化するために,Piculetという新しいトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2024-08-02T04:34:37Z) - SemanticMIM: Marring Masked Image Modeling with Semantics Compression for General Visual Representation [13.013776924941205]
SemanticMIMは、一般的な視覚表現のためのマスク付き画像モデリング(MIM)とコントラスト学習(CL)の利点を統合するためのフレームワークである。
我々はCLとMIMの徹底的な比較分析を行い、それらの相補的優位性は2つの相、すなわち圧縮と再構成から生じることを明らかにした。
我々は,SemanticMIMがCLとMIMの利点を効果的に実現し,性能と特徴線形分離性を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-06-15T15:39:32Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - The Instinctive Bias: Spurious Images lead to Illusion in MLLMs [34.91795817316696]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
本稿では,スプリアス画像の視覚錯視レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文 参考訳(メタデータ) (2024-02-06T06:48:46Z) - StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis [112.25071764647683]
StrokeNUWAはベクターグラフィックスにおけるより良い視覚表現'ストロークトークン'を探求する先駆的な研究である。
ストロークトークンを備えたStrokeNUWAは、従来のLCMベースの最適化ベースのメソッドを大幅に上回ることができる。
StrokeNUWAは、SVGコード圧縮比が6.9%の従来の手法よりも94倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2024-01-30T15:20:26Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。