論文の概要: OPCap:Object-aware Prompting Captioning
- arxiv url: http://arxiv.org/abs/2412.00095v2
- Date: Fri, 17 Jan 2025 06:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:57:43.518385
- Title: OPCap:Object-aware Prompting Captioning
- Title(参考訳): OPCap:オブジェクト認識プロンプトキャプション
- Authors: Feiyang Huang,
- Abstract要約: 画像キャプションの分野では、画像の説明に欠けている物や存在しない物を使う現象を物体バイアス(または幻覚)と呼ぶ。
この方法はまず、対象検出器を用いて画像から対象ラベルとその空間情報を抽出する。
属性予測器は、オブジェクトのセマンティックな特徴をさらに洗練する。これらの洗練された特徴は、後にデコーダに統合され、デコーダに入力され、モデルによる画像コンテキストの理解が向上する。
COCOデータセットとnocapsデータセットの実験結果から,OPCapは幻覚を効果的に緩和し,生成したキャプションの品質を著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In the field of image captioning, the phenomenon where missing or nonexistent objects are used to explain an image is referred to as object bias (or hallucination). To mitigate this issue, we propose a target-aware prompting strategy. This method first extracts object labels and their spatial information from the image using an object detector. Then, an attribute predictor further refines the semantic features of the objects. These refined features are subsequently integrated and fed into the decoder, enhancing the model's understanding of the image context. Experimental results on the COCO and nocaps datasets demonstrate that OPCap effectively mitigates hallucination and significantly improves the quality of generated captions.
- Abstract(参考訳): 画像キャプションの分野では、画像の説明に欠落または存在しない物体を用いる現象を物体バイアス(または幻覚)と呼ぶ。
この問題を軽減するため,我々は目標認識型プロンプト戦略を提案する。
この方法はまず、対象検出器を用いて画像から対象ラベルとその空間情報を抽出する。
そして、属性予測器がオブジェクトの意味的特徴をさらに洗練する。
これらの洗練された機能は後にデコーダに統合され、画像コンテキストに対するモデルの理解を深める。
COCOデータセットとnocapsデータセットの実験結果から,OPCapは幻覚を効果的に緩和し,生成したキャプションの品質を著しく向上させることが示された。
関連論文リスト
- Seeing the Unseen: Visual Common Sense for Semantic Placement [71.76026880991245]
画像が与えられたら、視覚システムは、その物体が置かれたり、人間によって配置される可能性がある画像の意味論的に意味のある領域(マスクまたは境界ボックス)を予測するように要求される。
セマンティック・プレースメント(SP)と呼ばれるこのタスクは、ロボットやARデバイス(ユーザーの空間内でオブジェクトを自動レンダリングする)にとって、このような常識的な視覚的理解が重要であると信じている。
論文 参考訳(メタデータ) (2024-01-15T15:28:30Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Unpaired Image Captioning by Image-level Weakly-Supervised Visual
Concept Recognition [83.93422034664184]
未ペア画像キャプション(UIC)とは、訓練段階で画像キャプチャペアを使わずに画像を記述することである。
既存の研究の多くは、既成のアルゴリズムを使って視覚的概念を得る。
画像レベルラベルを用いたコスト効率の高いUICを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T08:02:23Z) - Label-Attention Transformer with Geometrically Coherent Objects for
Image Captioning [4.366088315820477]
幾何学的コヒーレントオブジェクト(LATGeO)を用いたラベルアテンション変換器を提案する。
提案手法は,ディープニューラルネットワーク(DNN)を用いた幾何学的コヒーレントな物体の提案を取得し,それらの関係性を調査してキャプションを生成する。
実験により、オブジェクトの周囲における関連性や視覚的特徴と幾何学的に局所化された比率との結合が、関連するラベルと組み合わせることで、意味のあるキャプションを定義するのに役立つことが示された。
論文 参考訳(メタデータ) (2021-09-16T08:43:46Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。