論文の概要: Generating Accurate and Detailed Captions for High-Resolution Images
- arxiv url: http://arxiv.org/abs/2510.27164v1
- Date: Fri, 31 Oct 2025 04:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.976018
- Title: Generating Accurate and Detailed Captions for High-Resolution Images
- Title(参考訳): 高分解能画像のための正確なキャプションと詳細キャプションの生成
- Authors: Hankyeol Lee, Gawon Seo, Kyounggyu Lee, Dogun Kim, Kyungwoo Song, Jiyoung Jung,
- Abstract要約: 本稿では,視覚言語モデル,大規模言語モデル,オブジェクト検出システムを統合した新しいパイプラインを提案する。
提案するパイプラインは,新しい多段階プロセスを通じてキャプションを洗練する。
高解像度画像のキュレートされたデータセットの実験により、パイプラインはより詳細で信頼性の高い画像キャプションを生成することが示された。
- 参考スコア(独自算出の注目度): 13.538521042598502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) often struggle to generate accurate and detailed captions for high-resolution images since they are typically pre-trained on low-resolution inputs (e.g., 224x224 or 336x336 pixels). Downscaling high-resolution images to these dimensions may result in the loss of visual details and the omission of important objects. To address this limitation, we propose a novel pipeline that integrates vision-language models, large language models (LLMs), and object detection systems to enhance caption quality. Our proposed pipeline refines captions through a novel, multi-stage process. Given a high-resolution image, an initial caption is first generated using a VLM, and key objects in the image are then identified by an LLM. The LLM predicts additional objects likely to co-occur with the identified key objects, and these predictions are verified by object detection systems. Newly detected objects not mentioned in the initial caption undergo focused, region-specific captioning to ensure they are incorporated. This process enriches caption detail while reducing hallucinations by removing references to undetected objects. We evaluate the enhanced captions using pairwise comparison and quantitative scoring from large multimodal models, along with a benchmark for hallucination detection. Experiments on a curated dataset of high-resolution images demonstrate that our pipeline produces more detailed and reliable image captions while effectively minimizing hallucinations.
- Abstract(参考訳): 視覚言語モデル(VLM)は、通常、低解像度の入力(例えば、224x224または336x336ピクセル)で事前訓練されているため、高解像度の画像に対して正確で詳細なキャプションを生成するのに苦労することが多い。
これらの次元に高解像度画像をダウンスケールすると、視覚的詳細が失われ、重要な物体が欠落する可能性がある。
この制限に対処するために,視覚言語モデル,大規模言語モデル(LLM),オブジェクト検出システムを統合し,キャプションの品質を向上させるパイプラインを提案する。
提案するパイプラインは,新しい多段階プロセスを通じてキャプションを洗練する。
高解像度の画像が与えられた後、最初にVLMを使用して初期キャプションを生成し、その画像内のキーオブジェクトをLLMで識別する。
LLMは、同定された鍵オブジェクトと共起する可能性のある追加のオブジェクトを予測し、これらの予測はオブジェクト検出システムによって検証される。
最初のキャプションで言及されていない新しい検出対象は、それらが組み込まれることを保証するために、地域固有のキャプションに焦点を当てている。
このプロセスは、検出されていないオブジェクトへの参照を取り除き、幻覚を減らしながら、キャプションの詳細を豊かにする。
本研究は,大規模なマルチモーダルモデルと幻覚検出のためのベンチマークを用いて,ペア比較と定量的スコアリングによる拡張キャプションの評価を行った。
高解像度画像のキュレートされたデータセットによる実験により、我々のパイプラインは幻覚を効果的に最小化しつつ、より詳細で信頼性の高い画像キャプションを生成することを示した。
関連論文リスト
- Measuring and Mitigating Hallucinations in Vision-Language Dataset Generation for Remote Sensing [19.344890308208555]
本稿では,地図を外部データソースとして統合することで,遠隔センシングのための視覚言語データセットを強化する手法を提案する。
本稿では、衛星画像、地図、メタデータ、テキストアノテーションを組み込んだマルチモーダルデータセットであるfMoW-mmを紹介する。
論文 参考訳(メタデータ) (2025-01-24T20:13:29Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - Do More Details Always Introduce More Hallucinations in LVLM-based Image Captioning? [29.237078890377514]
LVLM(Large Vision-Language Models)は、視覚的コンテキストと言語的コンテキストを統合することで、詳細なコンテンツを生成する。
LVLMを使用して記述を生成すると、出力テキストが入力画像内の実際のオブジェクトを誤って表現するオブジェクト幻覚(OH)の課題に直面します。
本稿では,新しい復号化戦略である微分ビーム復号法(DBD)と信頼性の高い新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:33:56Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - OSIC: A New One-Stage Image Captioner Coined [38.46732302316068]
動的多視点学習を用いたワンステージ画像キャプタ(OSIC)を提案する。
リッチな特徴を得るためには、Swin Transformerを使ってマルチレベルの特徴を計算する。
キャプション用エンコーダのグローバルなモデリングを強化するために,新しい2次元精製モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-04T08:50:09Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。