論文の概要: OPCap:Object-aware Prompting Captioning
- arxiv url: http://arxiv.org/abs/2412.00095v2
- Date: Fri, 17 Jan 2025 06:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:57:43.518385
- Title: OPCap:Object-aware Prompting Captioning
- Title(参考訳): OPCap:オブジェクト認識プロンプトキャプション
- Authors: Feiyang Huang,
- Abstract要約: 画像キャプションの分野では、画像の説明に欠けている物や存在しない物を使う現象を物体バイアス(または幻覚)と呼ぶ。
この方法はまず、対象検出器を用いて画像から対象ラベルとその空間情報を抽出する。
属性予測器は、オブジェクトのセマンティックな特徴をさらに洗練する。これらの洗練された特徴は、後にデコーダに統合され、デコーダに入力され、モデルによる画像コンテキストの理解が向上する。
COCOデータセットとnocapsデータセットの実験結果から,OPCapは幻覚を効果的に緩和し,生成したキャプションの品質を著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In the field of image captioning, the phenomenon where missing or nonexistent objects are used to explain an image is referred to as object bias (or hallucination). To mitigate this issue, we propose a target-aware prompting strategy. This method first extracts object labels and their spatial information from the image using an object detector. Then, an attribute predictor further refines the semantic features of the objects. These refined features are subsequently integrated and fed into the decoder, enhancing the model's understanding of the image context. Experimental results on the COCO and nocaps datasets demonstrate that OPCap effectively mitigates hallucination and significantly improves the quality of generated captions.
- Abstract(参考訳): 画像キャプションの分野では、画像の説明に欠落または存在しない物体を用いる現象を物体バイアス(または幻覚)と呼ぶ。
この問題を軽減するため,我々は目標認識型プロンプト戦略を提案する。
この方法はまず、対象検出器を用いて画像から対象ラベルとその空間情報を抽出する。
そして、属性予測器がオブジェクトの意味的特徴をさらに洗練する。
これらの洗練された機能は後にデコーダに統合され、画像コンテキストに対するモデルの理解を深める。
COCOデータセットとnocapsデータセットの実験結果から,OPCapは幻覚を効果的に緩和し,生成したキャプションの品質を著しく向上させることが示された。
関連論文リスト
- See or Guess: Counterfactually Regularized Image Captioning [32.82695612178604]
本稿では、因果推論を利用して、既存のモデルを介入作業に役立てる汎用画像キャプションフレームワークを提案する。
本手法は幻覚を効果的に低減し,画像への忠実さを向上し,小型および大規模の画像・テキスト・モデル間で高い可搬性を示す。
論文 参考訳(メタデータ) (2024-08-29T17:59:57Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - Image Captioning with Multi-Context Synthetic Data [16.961112970612447]
大規模なモデルは高品質な画像やテキストを作成するのに優れています。
マルチコンテキストデータ生成を導入した革新的なパイプラインを提案する。
我々のモデルは、このプロセスを通じて構築された合成画像テキストペアに特化して訓練されている。
論文 参考訳(メタデータ) (2023-05-29T13:18:59Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Inferring Offensiveness In Images From Natural Language Supervision [20.294073012815854]
ウェブから自動的に取り除かれた大規模な画像データセットには、カテゴリや攻撃的なイメージといった軽蔑的な用語が含まれる可能性がある。
我々は、事前学習されたトランスフォーマー自体が、大規模ビジョンデータセットの自動キュレーションのための方法論を提供することを示した。
論文 参考訳(メタデータ) (2021-10-08T16:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。