論文の概要: Generating Accurate and Detailed Captions for High-Resolution Images
- arxiv url: http://arxiv.org/abs/2510.27164v1
- Date: Fri, 31 Oct 2025 04:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.976018
- Title: Generating Accurate and Detailed Captions for High-Resolution Images
- Title(参考訳): 高分解能画像のための正確なキャプションと詳細キャプションの生成
- Authors: Hankyeol Lee, Gawon Seo, Kyounggyu Lee, Dogun Kim, Kyungwoo Song, Jiyoung Jung,
- Abstract要約: 本稿では,視覚言語モデル,大規模言語モデル,オブジェクト検出システムを統合した新しいパイプラインを提案する。
提案するパイプラインは,新しい多段階プロセスを通じてキャプションを洗練する。
高解像度画像のキュレートされたデータセットの実験により、パイプラインはより詳細で信頼性の高い画像キャプションを生成することが示された。
- 参考スコア(独自算出の注目度): 13.538521042598502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) often struggle to generate accurate and detailed captions for high-resolution images since they are typically pre-trained on low-resolution inputs (e.g., 224x224 or 336x336 pixels). Downscaling high-resolution images to these dimensions may result in the loss of visual details and the omission of important objects. To address this limitation, we propose a novel pipeline that integrates vision-language models, large language models (LLMs), and object detection systems to enhance caption quality. Our proposed pipeline refines captions through a novel, multi-stage process. Given a high-resolution image, an initial caption is first generated using a VLM, and key objects in the image are then identified by an LLM. The LLM predicts additional objects likely to co-occur with the identified key objects, and these predictions are verified by object detection systems. Newly detected objects not mentioned in the initial caption undergo focused, region-specific captioning to ensure they are incorporated. This process enriches caption detail while reducing hallucinations by removing references to undetected objects. We evaluate the enhanced captions using pairwise comparison and quantitative scoring from large multimodal models, along with a benchmark for hallucination detection. Experiments on a curated dataset of high-resolution images demonstrate that our pipeline produces more detailed and reliable image captions while effectively minimizing hallucinations.
- Abstract(参考訳): 視覚言語モデル(VLM)は、通常、低解像度の入力(例えば、224x224または336x336ピクセル)で事前訓練されているため、高解像度の画像に対して正確で詳細なキャプションを生成するのに苦労することが多い。
これらの次元に高解像度画像をダウンスケールすると、視覚的詳細が失われ、重要な物体が欠落する可能性がある。
この制限に対処するために,視覚言語モデル,大規模言語モデル(LLM),オブジェクト検出システムを統合し,キャプションの品質を向上させるパイプラインを提案する。
提案するパイプラインは,新しい多段階プロセスを通じてキャプションを洗練する。
高解像度の画像が与えられた後、最初にVLMを使用して初期キャプションを生成し、その画像内のキーオブジェクトをLLMで識別する。
LLMは、同定された鍵オブジェクトと共起する可能性のある追加のオブジェクトを予測し、これらの予測はオブジェクト検出システムによって検証される。
最初のキャプションで言及されていない新しい検出対象は、それらが組み込まれることを保証するために、地域固有のキャプションに焦点を当てている。
このプロセスは、検出されていないオブジェクトへの参照を取り除き、幻覚を減らしながら、キャプションの詳細を豊かにする。
本研究は,大規模なマルチモーダルモデルと幻覚検出のためのベンチマークを用いて,ペア比較と定量的スコアリングによる拡張キャプションの評価を行った。
高解像度画像のキュレートされたデータセットによる実験により、我々のパイプラインは幻覚を効果的に最小化しつつ、より詳細で信頼性の高い画像キャプションを生成することを示した。
関連論文リスト
- IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Detection [70.02774285130238]
本稿では,リッチテキストセマンティクスと画像レベルの情報と画素レベルの情報の組み合わせについて検討する。
産業異常検出のためのMLLMに基づく新しいパラダイムであるIAD-GPTを提案する。
MVTec-ADとVisAデータセットの実験は、私たちの最先端のパフォーマンスを示しています。
論文 参考訳(メタデータ) (2025-10-16T02:48:05Z) - One More Glance with Sharp Eyes: Rethinking Lightweight Captioning as a Practical Visual Specialist [58.89538703878721]
125M-パラメータ言語モデルを用いて,軽量キャプションモデルを構築した。
単文で評価するが、詳細なキャプションタスクで評価する。
シャープ・イード・リファインメント (Sharp-Eyed Refinement) という新しいキャプション・フレームワークを開発し, 粗い記述をより正確なキャプションに書き換えることでキャプションの質を高める。
論文 参考訳(メタデータ) (2025-08-29T09:29:27Z) - ROVI: A VLM-LLM Re-Captioned Dataset for Open-Vocabulary Instance-Grounded Text-to-Image Generation [23.118080583803266]
ROVIは,画像生成のための高品質な合成データセットである。
私たちの重要なイノベーションは、リキャプション(recaptioning)と呼ばれる戦略です。
実証的目的のために、ROVIで訓練されたテキスト・ツー・イメージモデルGLIGENは、例えば精度、迅速な忠実度、美的品質において最先端の代替品よりも著しく優れている。
論文 参考訳(メタデータ) (2025-08-01T18:19:51Z) - Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning [56.31096024472269]
我々はDeCapBenchと、詳細なキャプションタスク用に特別に設計された新しいメトリックであるDCScoreを紹介する。
DCScoreは、反応を最小の自己充足単位に分解することで、幻覚ときめ細かい包括性を評価する。
DeCapBenchは、視覚言語モデルの既存のベンチマークを上回り、記述タスクにおけるVLMアリーナの結果と高い相関を示す。
論文 参考訳(メタデータ) (2025-03-10T22:53:56Z) - Measuring and Mitigating Hallucinations in Vision-Language Dataset Generation for Remote Sensing [19.344890308208555]
本稿では,地図を外部データソースとして統合することで,遠隔センシングのための視覚言語データセットを強化する手法を提案する。
本稿では、衛星画像、地図、メタデータ、テキストアノテーションを組み込んだマルチモーダルデータセットであるfMoW-mmを紹介する。
論文 参考訳(メタデータ) (2025-01-24T20:13:29Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Do More Details Always Introduce More Hallucinations in LVLM-based Image Captioning? [29.237078890377514]
LVLM(Large Vision-Language Models)は、視覚的コンテキストと言語的コンテキストを統合することで、詳細なコンテンツを生成する。
LVLMを使用して記述を生成すると、出力テキストが入力画像内の実際のオブジェクトを誤って表現するオブジェクト幻覚(OH)の課題に直面します。
本稿では,新しい復号化戦略である微分ビーム復号法(DBD)と信頼性の高い新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:33:56Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - OSIC: A New One-Stage Image Captioner Coined [38.46732302316068]
動的多視点学習を用いたワンステージ画像キャプタ(OSIC)を提案する。
リッチな特徴を得るためには、Swin Transformerを使ってマルチレベルの特徴を計算する。
キャプション用エンコーダのグローバルなモデリングを強化するために,新しい2次元精製モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-04T08:50:09Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。