論文の概要: Negative Entity Suppression for Zero-Shot Captioning with Synthetic Images
- arxiv url: http://arxiv.org/abs/2511.08909v1
- Date: Thu, 13 Nov 2025 01:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.293362
- Title: Negative Entity Suppression for Zero-Shot Captioning with Synthetic Images
- Title(参考訳): 合成画像を用いたゼロショットキャプションにおける負のエンティティ抑制
- Authors: Zimao Lu, Hui Xu, Bing Liu, Ke Wang,
- Abstract要約: ゼロショット画像キャプション(ZIC)における幻覚対策のための負のエンティティ抑制(NES)を提案する。
NESは,(1)トレーニングと推論の両面において一貫した画像とテキストの検索を確保するために合成画像を利用する,(2)検索したコンテンツから負のエンティティをフィルタリングして精度を高める,(3)特定負のエンティティを用いた注意レベル抑制を適用して幻覚症状の影響をさらに最小化する,という3つの段階をシームレスに統合する。
NESは、クロスドメイン転送を改善し、幻覚率を下げながら、ドメイン内での競争力を維持し、新しい最先端の成果をZICで達成している。
- 参考スコア(独自算出の注目度): 8.990163302901996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-only training provides an attractive approach to address data scarcity challenges in zero-shot image captioning (ZIC), avoiding the expense of collecting paired image-text annotations. However, although these approaches perform well within training domains, they suffer from poor cross-domain generalization, often producing hallucinated content when encountering novel visual environments. Retrieval-based methods attempt to mitigate this limitation by leveraging external knowledge, but they can paradoxically exacerbate hallucination when retrieved captions contain entities irrelevant to the inputs. We introduce the concept of negative entities--objects that appear in generated caption but are absent from the input--and propose Negative Entity Suppression (NES) to tackle this challenge. NES seamlessly integrates three stages: (1) it employs synthetic images to ensure consistent image-to-text retrieval across both training and inference; (2) it filters negative entities from retrieved content to enhance accuracy; and (3) it applies attention-level suppression using identified negative entities to further minimize the impact of hallucination-prone features. Evaluation across multiple benchmarks demonstrates that NES maintains competitive in-domain performance while improving cross-domain transfer and reducing hallucination rates, achieving new state-of-the-art results in ZIC. Our code is available at https://github.com/nidongpinyinme/NESCap.
- Abstract(参考訳): テキストのみのトレーニングは、ゼロショット画像キャプション(ZIC)におけるデータの不足に対処するための魅力的なアプローチを提供する。
しかし、これらの手法は訓練領域内では良好に機能するが、クロスドメインの一般化に苦しむため、新しい視覚環境に遭遇する際には、しばしば幻覚的コンテンツを生成する。
検索ベースの手法は、外部知識を活用してこの制限を緩和しようとするが、検索されたキャプションが入力に関係のないエンティティを含む場合、幻覚をパラドックス的に悪化させる可能性がある。
生成したキャプションに現れるが、入力を欠いている負の実体の概念を導入し、この課題に対処するために負のエンティティ抑圧(NES)を提案する。
NESは,(1)トレーニングと推論の両面において一貫した画像とテキストの検索を確保するために合成画像を利用する,(2)検索したコンテンツから負のエンティティをフィルタリングして精度を高める,(3)特定負のエンティティを用いた注意レベル抑制を適用して幻覚症状の影響をさらに最小化する,という3つの段階をシームレスに統合する。
複数のベンチマークによる評価は、NESがクロスドメイン転送を改善し、幻覚率を下げながら、ドメイン内の競争性能を維持し、新たな最先端の成果をZICで達成していることを示している。
私たちのコードはhttps://github.com/nidongpinyinme/NESCapで利用可能です。
関連論文リスト
- What Makes "Good" Distractors for Object Hallucination Evaluation in Large Vision-Language Models? [95.46087552542998]
本稿では,Halucination検索を用いたObject Probing Evaluationベンチマークを紹介する。
これは、大きな視覚ランゲージモデルで幻覚を誘発する最も誤解を招きやすいイントラクタを生成することを目的としている。
実験結果から, HOPEの精度は少なくとも9%低下し, 最先端のLVLMでは最大23%低下した。
論文 参考訳(メタデータ) (2025-08-03T03:11:48Z) - Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings [65.31723739561151]
埋め込みは、エンコードされたセマンティクス内のきめ細かいエンティティやイベントを認識できないかもしれない。
本稿では,新たな評価データセットであるCapRetrievalを導入し,文節は画像キャプションであり,クエリはエンティティやイベントの概念を多種多様な形式でターゲットとするフレーズである。
我々は提案したデータ生成戦略でエンコーダを微調整し、小さな0.1Bエンコーダで最先端の7Bモデルを上回る性能を実現した。
論文 参考訳(メタデータ) (2025-06-10T09:00:33Z) - Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning [70.98890307376548]
そこで本研究では,学習中に不信なコンテンツを適応的に緩和する,新しいPatch-wise Cross-modal Feature Mix-up(PCM)機構を提案する。
私たちのPCM-Netは、ドメイン内およびクロスドメインのゼロショット画像キャプションの両方で第1位です。
論文 参考訳(メタデータ) (2024-12-31T13:39:08Z) - IFCap: Image-like Retrieval and Frequency-based Entity Filtering for
Zero-shot Captioning [3.8265756182141346]
テキストの特徴を視覚的に関連性のある特徴と整合させてモダリティギャップを緩和する,イメージライクな検索手法を提案する。
本手法は,検索したキャプションを入力特徴と統合したFusion Moduleを設計することにより,生成されたキャプションの精度をさらに向上する。
論文 参考訳(メタデータ) (2024-09-26T16:47:32Z) - BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - ESREAL: Exploiting Semantic Reconstruction to Mitigate Hallucinations in Vision-Language Models [6.014286500397164]
視覚言語モデルにおける幻覚は、特に長いキャプションの生成において、その信頼性に重大な課題をもたらす。
本研究では,幻覚の正確な局在化と罰則化による幻覚の発生抑制を目的とした,新しい教師なし学習フレームワークであるESREALを紹介する。
LLaVA, InstructBLIP, mPLUG-Owl2の幻覚を32.81%, 27.08%, 7.46%減少させる。
論文 参考訳(メタデータ) (2024-03-24T14:21:06Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - Semi-supervised Semantic Segmentation with Directional Context-aware
Consistency [66.49995436833667]
我々は、ラベル付きデータの小さなセットに、全くラベル付けされていない画像のより大きなコレクションを提供する半教師付きセグメンテーション問題に焦点をあてる。
好ましいハイレベル表現は、自己認識を失わずにコンテキスト情報をキャプチャするべきである。
我々は,DCロス(Directional Contrastive Loss)を画素対ピクセルの整合性を達成するために提示する。
論文 参考訳(メタデータ) (2021-06-27T03:42:40Z) - A Weakly-Supervised Semantic Segmentation Approach based on the Centroid
Loss: Application to Quality Control and Inspection [6.101839518775968]
本稿では,新しい損失関数を用いた弱教師付きセマンティックセマンティックセマンティクス手法の提案と評価を行う。
アプローチのパフォーマンスは,2つの業界関連ケーススタディのデータセットに対して評価される。
論文 参考訳(メタデータ) (2020-10-26T09:08:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。