論文の概要: When Relations Break: Analyzing Relation Hallucination in Vision-Language Model Under Rotation and Noise
- arxiv url: http://arxiv.org/abs/2605.05045v2
- Date: Sun, 10 May 2026 12:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 16:21:29.373672
- Title: When Relations Break: Analyzing Relation Hallucination in Vision-Language Model Under Rotation and Noise
- Title(参考訳): 関係が破れたとき--回転・騒音下における視覚・言語モデルにおける関係幻覚の分析-
- Authors: Philip Wootaek Shin, Ajay Narayanan Sridhar, Sivani Devarapalli, Rui Zhang, Jack Sampson, Vijaykrishnan Narayanan,
- Abstract要約: 視覚言語モデル(VLM)は、強いマルチモーダル性能を達成するが、オブジェクト間相互作用の正確な推論を必要とする関係幻覚の傾向にある。
本研究では、視覚的摂動の影響、特に回転と雑音について検討し、軽度歪みでさえモデルとデータセット間の関係推論を著しく劣化させることを示した。
- 参考スコア(独自算出の注目度): 11.519569849803757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) achieve strong multimodal performance but remain prone to relation hallucination, which requires accurate reasoning over inter-object interactions. We study the impact of visual perturbations, specifically rotation and noise, and show that even mild distortions significantly degrade relational reasoning across models and datasets. We further evaluate prompt-based augmentation and preprocessing strategies (orientation correction and denoising), finding that while they offer partial improvements, they do not fully resolve hallucinations. Our results reveal a gap between perceptual robustness and relational understanding, highlighting the need for more robust, geometry-aware VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)は、強いマルチモーダル性能を達成するが、オブジェクト間相互作用の正確な推論を必要とする関係幻覚の傾向にある。
本研究では、視覚的摂動の影響、特に回転と雑音について検討し、軽度歪みでさえモデルとデータセット間の関係推論を著しく劣化させることを示した。
さらに,プロンプトベースの増補・前処理戦略(指向性補正・復調)を評価し,部分的な改善を提供する一方で,幻覚を完全には解決しないことを示した。
以上の結果から, 知覚的堅牢性と関係理解のギャップが明らかとなり, より頑健で幾何学的なVLMの必要性が浮き彫りになった。
関連論文リスト
- Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models [65.57985131861399]
幻覚は、しばしば高いエントロピー状態を示す認知的分岐点と強く相関している。
本稿では,視覚的に認識可能な推論機能の内部化を目的とした,軽量で総合的なトレーニングパラダイムであるV-STARを提案する。
論文 参考訳(メタデータ) (2026-04-11T13:59:05Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
我々は2万以上の実世界のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。
関係幻覚を体系的に定義し、知覚的視点と認知的視点を統合するとともに、Visual Genomeのシーングラフデータセットを用いて関係ベースのコーパスを構築する。
本稿では,Reefknotを含む3つのデータセットに対して,幻覚率を平均9.75%削減する信頼性に基づく新たな緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z) - Evaluating and Analyzing Relationship Hallucinations in Large Vision-Language Models [69.79709804046325]
視覚関係の幻覚を評価するための新しいベンチマークであるR-Benchを紹介する。
R-Benchは、関係の存在に焦点を当てたイメージレベルの質問と、局所的な視覚的理解を評価するインスタンスレベルの質問を特徴としている。
我々は,関係関連性,主観関連性,関係対象性という,幻覚につながる3つの関係共起関係を同定する。
論文 参考訳(メタデータ) (2024-06-24T08:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。