論文の概要: OFCap:Object-aware Fusion for Image Captioning
- arxiv url: http://arxiv.org/abs/2412.00095v1
- Date: Wed, 27 Nov 2024 15:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:46:11.005527
- Title: OFCap:Object-aware Fusion for Image Captioning
- Title(参考訳): OFCap:画像キャプションのためのオブジェクト認識フュージョン
- Authors: Feiyang Huang,
- Abstract要約: 画像キャプションは、画像コンテンツを自然言語記述に変換する技術である。
インテリジェント検索エンジンや視覚障害者支援ツールなど、多くのアプリケーションシナリオには、人を含むイメージが含まれる。
データセットは、しばしば人物を特徴とする画像の比率が高い。
このモデルは、人無しで画像の記述を生成する際には性能が悪く、無関係な記述(幻覚)を生成さえできる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Image captioning is a technique that translates image content into natural language descriptions. Many application scenarios, such as intelligent search engines and assistive tools for visually impaired individuals, involve images containing people. As a result, datasets often have a high proportion of images featuring people. However, this data imbalance can lead to overfitting. The model may perform poorly when generating descriptions for images without people and may even produce irrelevant descriptions (hallucinations). To address this issue, increasing the diversity of the dataset could be an effective solution. However, acquiring high-quality image-text pairs is costly. Reducing overfitting without altering the dataset can significantly save resources. To tackle this challenge, we propose a target-aware prompting strategy. This method extracts object information from images using an object detector and integrates this information into the model through a fusion module. This helps the model generate descriptions with additional references (\textbf{OFCap}). Moreover, this strategy is model-agnostic. Pretrained models can be used with frozen parameters during training, further reducing computational costs. We conducted experiments on the COCO and nocpas datasets. The results demonstrate that this strategy effectively mitigates overfitting and significantly improves the quality of image descriptions.
- Abstract(参考訳): 画像キャプションは、画像コンテンツを自然言語記述に変換する技術である。
インテリジェント検索エンジンや視覚障害者支援ツールなど、多くのアプリケーションシナリオには、人を含むイメージが含まれる。
その結果、データセットは、しばしば人物を特徴とする画像の比率が高い。
しかし、このデータ不均衡は過度に適合する可能性がある。
このモデルは、人なしで画像の記述を生成する際には性能が悪く、無関係な記述(幻覚)も生成する。
この問題に対処するためには、データセットの多様性を高めることが効果的なソリューションになり得る。
しかし、高品質な画像テキストペアの獲得にはコストがかかる。
データセットを変更することなくオーバーフィッティングを減らすことは、リソースを著しく節約する。
この課題に対処するため,我々は目標認識型プロンプト戦略を提案する。
オブジェクト検出器を用いて画像からオブジェクト情報を抽出し、融合モジュールを介してモデルに統合する。
これにより、モデルが追加参照(\textbf{OFCap})で記述を生成するのに役立つ。
さらに、この戦略はモデルに依存しない。
事前訓練されたモデルは、トレーニング中に凍結パラメータで使用することができ、さらに計算コストを削減できる。
我々はCOCOおよびnocpasデータセットの実験を行った。
その結果、この戦略は画像記述の品質を効果的に軽減し、大幅に改善することを示した。
関連論文リスト
- Seeing the Unseen: Visual Common Sense for Semantic Placement [71.76026880991245]
画像が与えられたら、視覚システムは、その物体が置かれたり、人間によって配置される可能性がある画像の意味論的に意味のある領域(マスクまたは境界ボックス)を予測するように要求される。
セマンティック・プレースメント(SP)と呼ばれるこのタスクは、ロボットやARデバイス(ユーザーの空間内でオブジェクトを自動レンダリングする)にとって、このような常識的な視覚的理解が重要であると信じている。
論文 参考訳(メタデータ) (2024-01-15T15:28:30Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - Unpaired Image Captioning by Image-level Weakly-Supervised Visual
Concept Recognition [83.93422034664184]
未ペア画像キャプション(UIC)とは、訓練段階で画像キャプチャペアを使わずに画像を記述することである。
既存の研究の多くは、既成のアルゴリズムを使って視覚的概念を得る。
画像レベルラベルを用いたコスト効率の高いUICを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T08:02:23Z) - Label-Attention Transformer with Geometrically Coherent Objects for
Image Captioning [4.366088315820477]
幾何学的コヒーレントオブジェクト(LATGeO)を用いたラベルアテンション変換器を提案する。
提案手法は,ディープニューラルネットワーク(DNN)を用いた幾何学的コヒーレントな物体の提案を取得し,それらの関係性を調査してキャプションを生成する。
実験により、オブジェクトの周囲における関連性や視覚的特徴と幾何学的に局所化された比率との結合が、関連するラベルと組み合わせることで、意味のあるキャプションを定義するのに役立つことが示された。
論文 参考訳(メタデータ) (2021-09-16T08:43:46Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。