論文の概要: OS-HGAdapter: Open Semantic Hypergraph Adapter for Large Language Models Assisted Entropy-Enhanced Image-Text Alignment
- arxiv url: http://arxiv.org/abs/2510.13131v1
- Date: Wed, 15 Oct 2025 04:09:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.490077
- Title: OS-HGAdapter: Open Semantic Hypergraph Adapter for Large Language Models Assisted Entropy-Enhanced Image-Text Alignment
- Title(参考訳): OS-HGAdapter:エントロピー強化画像テキストアライメントを支援する大規模言語モデルのためのオープンセマンティックハイパーグラフアダプタ
- Authors: Rongjun Chen, Chengsi Yao, Jinchang Ren, Xianxian Zeng, Peixian Wang, Jun Yuan, Jiawen Li, Huimin Zhao, Xu Lu,
- Abstract要約: テキスト画像アライメントはマルチメディアコンテンツ理解における基礎的な課題である。
本稿では,Large Language Model (LLM) のオープンな意味知識を用いて,エントロピーギャップを埋めることを提案する。
Flickr30KとMS-COCOベンチマークの総合評価は、オープンセマンティックハイパーグラフアダプタ(OS-HGAdapter)の優位性を検証している。
- 参考スコア(独自算出の注目度): 8.625923727928752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-image alignment constitutes a foundational challenge in multimedia content understanding, where effective modeling of cross-modal semantic correspondences critically enhances retrieval system performance through joint embedding space optimization. Given the inherent difference in information entropy between texts and images, conventional approaches often show an imbalance in the mutual retrieval of these two modalities. To address this particular challenge, we propose to use the open semantic knowledge of Large Language Model (LLM) to fill for the entropy gap and reproduce the alignment ability of humans in these tasks. Our entropy-enhancing alignment is achieved through a two-step process: 1) a new prompt template that does not rely on explicit knowledge in the task domain is designed to use LLM to enhance the polysemy description of the text modality. By analogy, the information entropy of the text modality relative to the visual modality is increased; 2) A hypergraph adapter is used to construct multilateral connections between the text and image modalities, which can correct the positive and negative matching errors for synonymous semantics in the same fixed embedding space, whilst reducing the noise caused by open semantic entropy by mapping the reduced dimensions back to the original dimensions. Comprehensive evaluations on the Flickr30K and MS-COCO benchmarks validate the superiority of our Open Semantic Hypergraph Adapter (OS-HGAdapter), showcasing 16.8\% (text-to-image) and 40.1\% (image-to-text) cross-modal retrieval gains over existing methods while establishing new state-of-the-art performance in semantic alignment tasks.
- Abstract(参考訳): テキスト画像アライメントはマルチメディアコンテンツ理解における基礎的な課題であり、クロスモーダルな意味対応の効果的なモデリングは、共同埋め込み空間最適化による検索システムの性能を著しく向上させる。
テキストと画像間の情報エントロピーが本質的に異なることを考えると、従来の手法はこれらの2つのモダリティの相互検索において不均衡を示すことが多い。
この課題に対処するため、我々はLarge Language Model (LLM) のオープンセマンティック知識を用いてエントロピーギャップを埋め、これらのタスクにおける人間のアライメント能力を再現することを提案する。
エントロピーエンハンシングアライメントは、2段階のプロセスによって達成されます。
1)タスク領域における明示的な知識に依存しない新しいプロンプトテンプレートは、LLMを用いてテキストモダリティのポリセミー記述を強化するように設計されている。
類似により、視覚的モダリティに対するテキストモダリティの情報エントロピーが増大する。
2) ハイパーグラフアダプタを用いてテキストと画像のモダリティ間の多重接続を構築し, 同一の固定埋め込み空間における同義意味の正と負の一致誤差を補正すると同時に, 縮小次元を元の次元にマッピングすることで, オープンセマンティックエントロピーによるノイズを低減する。
Flickr30KとMS-COCOベンチマークの総合的な評価は、セマンティックハイパーグラフアダプタ(OS-HGAdapter)の優位性を検証し、16.8\%(text-to-image)と40.1\%(image-to-text)のクロスモーダル検索が既存の手法よりも向上し、セマンティックアライメントタスクにおける新しい最先端パフォーマンスを確立していることを示している。
関連論文リスト
- Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - FAR-Net: Multi-Stage Fusion Network with Enhanced Semantic Alignment and Adaptive Reconciliation for Composed Image Retrieval [36.03123811283016]
セマンティックアライメントとアダプティブアライメントを備えた多段階融合フレームワークであるFAR-Netを提案する。
CIRRとFashionIQの実験は、一貫性のあるパフォーマンス向上を示し、Recall@1を2.4%改善し、Recall@50を1.04%改善した。
論文 参考訳(メタデータ) (2025-07-17T06:30:41Z) - VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。
提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。
提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:31:43Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。