論文の概要: Mitigating Hallucinations in Multimodal Spatial Relations through Constraint-Aware Prompting
- arxiv url: http://arxiv.org/abs/2502.08317v1
- Date: Wed, 12 Feb 2025 11:32:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:51:09.024695
- Title: Mitigating Hallucinations in Multimodal Spatial Relations through Constraint-Aware Prompting
- Title(参考訳): 制約対応プロンプトによるマルチモーダル空間関係における幻覚の緩和
- Authors: Jiarui Wu, Zhuo Liu, Hangfeng He,
- Abstract要約: 空間的関係幻覚は大きな視覚言語モデル(LVLM)において永続的な課題を引き起こす
本研究では,空間的関係の幻覚を減らすための制約対応プロンプトフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.962140902232628
- License:
- Abstract: Spatial relation hallucinations pose a persistent challenge in large vision-language models (LVLMs), leading to generate incorrect predictions about object positions and spatial configurations within an image. To address this issue, we propose a constraint-aware prompting framework designed to reduce spatial relation hallucinations. Specifically, we introduce two types of constraints: (1) bidirectional constraint, which ensures consistency in pairwise object relations, and (2) transitivity constraint, which enforces relational dependence across multiple objects. By incorporating these constraints, LVLMs can produce more spatially coherent and consistent outputs. We evaluate our method on three widely-used spatial relation datasets, demonstrating performance improvements over existing approaches. Additionally, a systematic analysis of various bidirectional relation analysis choices and transitivity reference selections highlights greater possibilities of our methods in incorporating constraints to mitigate spatial relation hallucinations.
- Abstract(参考訳): 空間的関係の幻覚は、大きな視覚言語モデル(LVLM)において永続的な課題となり、画像内の物体の位置と空間的構成に関する誤った予測を生成する。
この問題に対処するために,空間的関係の幻覚を減らすための制約対応プロンプトフレームワークを提案する。
具体的には,(1)相互対象関係の整合性を保証する双方向制約,(2)複数の対象間の関係依存を強制する推移性制約,の2種類の制約を導入する。
これらの制約を組み込むことで、LVLMはより空間的に整合的で一貫した出力を生成することができる。
提案手法を3つの空間関係データセット上で評価し,既存の手法による性能改善を実証した。
さらに,様々な双方向関係分析選択と推移性基準選択の体系的分析により,空間的関係の幻覚を緩和するための制約を取り入れた手法の可能性が高まった。
関連論文リスト
- SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning [42.487500113839666]
視覚言語モデル(VLM)の空間的推論能力を高める新しい手法を提案する。
提案手法は,空間座標二方向アライメントとチェーン・オブ・ザ・スペース・グラウンドリングの2段階からなる。
シミュレーションと実環境設定の両方において,ナビゲーションタスクと操作タスクに挑戦する手法を評価する。
論文 参考訳(メタデータ) (2025-01-17T09:46:27Z) - Fast Disentangled Slim Tensor Learning for Multi-view Clustering [28.950845031752927]
本稿では,マルチビュークラスタリングのための高速離散スリム学習法(DSTL)を提案する。
頑健なPCAにインスパイアされた特徴冗長性の負の影響を軽減するため、DSTLは、潜在する低次元表現を、各ビューに対する意味的非関連部分と意味的関連部分に分解する。
提案手法は計算効率が高く,効果的に解ける。
論文 参考訳(メタデータ) (2024-11-12T09:57:53Z) - Bridging the Modality Gap: Dimension Information Alignment and Sparse Spatial Constraint for Image-Text Matching [10.709744162565274]
本稿では2つの側面からモダリティギャップを橋渡しするDIASと呼ばれる新しい手法を提案する。
この方法はFlickr30kとMSCOCOベンチマークで4.3%-10.2%のrSum改善を実現している。
論文 参考訳(メタデータ) (2024-10-22T09:37:29Z) - RNG: Reducing Multi-level Noise and Multi-grained Semantic Gap for Joint Multimodal Aspect-Sentiment Analysis [27.545702415272125]
JMASA(Joint Multimodal Aspect-Sentiment Analysis)のための新しいフレームワークRNGを提案する。
具体的には、マルチレベルなモーダリティノイズとマルチレベルなセマンティックギャップを減らすために、3つの制約を設計する。
2つのデータセットの実験は、新しい最先端のパフォーマンスを検証する。
論文 参考訳(メタデータ) (2024-05-20T12:18:46Z) - DisCo: Towards Harmonious Disentanglement and Collaboration between Tabular and Semantic Space for Recommendation [38.650502048553626]
本研究では,2つの表現空間からユニークなパターンを分離し,2つの空間をコラボしてレコメンデーションエンハンスメントを提案する。
これらの加群は2つの表現空間の解離と協調のバランスをとり、情報的パターンベクトルを生成する。
論文 参考訳(メタデータ) (2024-05-20T08:07:27Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Maximum Spatial Perturbation Consistency for Unpaired Image-to-Image
Translation [56.44946660061753]
本稿では,最大空間摂動整合(MSPC)と呼ばれる普遍正規化手法を提案する。
MSPCは空間摂動関数(T)と変換演算子(G)を可換(TG = GT)に強制する。
提案手法は,ほとんどのI2Iベンチマークにおいて最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-03-23T19:59:04Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Joint Constrained Learning for Event-Event Relation Extraction [94.3499255880101]
本稿では,イベント・イベント関係をモデル化するための制約付き協調学習フレームワークを提案する。
具体的には、このフレームワークは、複数の時間的および部分的関係内の論理的制約を強制する。
我々は,共同学習手法が,共同ラベル付きデータの欠如を効果的に補うことを示す。
論文 参考訳(メタデータ) (2020-10-13T22:45:28Z) - RatE: Relation-Adaptive Translating Embedding for Knowledge Graph
Completion [51.64061146389754]
複素空間における新たな重み付き積の上に構築された関係適応変換関数を提案する。
次に、関係適応型翻訳埋め込み(RatE)アプローチを示し、各グラフを3倍にスコアする。
論文 参考訳(メタデータ) (2020-10-10T01:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。