論文の概要: One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework
- arxiv url: http://arxiv.org/abs/2510.02898v1
- Date: Fri, 03 Oct 2025 11:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.357413
- Title: One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework
- Title(参考訳): One Patch to Caption Them: Unified Zero-Shot Captioning Framework
- Authors: Lorenzo Bianchi, Giacomo Pacini, Fabio Carrara, Nicola Messina, Giuseppe Amato, Fabrizio Falchi,
- Abstract要約: ゼロショットキャプションのための統合フレームワークである frameworkName を提示する。
個々のパッチを原子キャプション単位として扱い、任意の領域を記述するためにそれらを集約する。
本モデルでは, ゼロショット密度, 領域セット, 新たに導入されたトレースキャプションタスクの性能が向上する。
- 参考スコア(独自算出の注目度): 12.293214801203556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot captioners are recently proposed models that utilize common-space vision-language representations to caption images without relying on paired image-text data. To caption an image, they proceed by textually decoding a text-aligned image feature, but they limit their scope to global representations and whole-image captions. We present \frameworkName{}, a unified framework for zero-shot captioning that shifts from an image-centric to a patch-centric paradigm, enabling the captioning of arbitrary regions without the need of region-level supervision. Instead of relying on global image representations, we treat individual patches as atomic captioning units and aggregate them to describe arbitrary regions, from single patches to non-contiguous areas and entire images. We analyze the key ingredients that enable current latent captioners to work in our novel proposed framework. Experiments demonstrate that backbones producing meaningful, dense visual features, such as DINO, are key to achieving state-of-the-art performance in multiple region-based captioning tasks. Compared to other baselines and state-of-the-art competitors, our models achieve better performance on zero-shot dense, region-set, and a newly introduced trace captioning task, highlighting the effectiveness of patch-wise semantic representations for scalable caption generation. Project page at https://paciosoft.com/Patch-ioner/ .
- Abstract(参考訳): ゼロショットキャプタ(ゼロショットキャプタ)は,2つの画像テキストデータに頼らずに,共通空間の視覚言語表現をキャプション画像に活用するモデルが最近提案されている。
画像のキャプションには、テキスト整列された画像の特徴をテキストでデコードするが、その範囲はグローバルな表現と全体像のキャプションに限られる。
画像中心からパッチ中心のパラダイムにシフトするゼロショットキャプションのための統一フレームワークである \frameworkName{} を,領域レベルの監督を必要とせずに任意の領域のキャプションを可能にする。
グローバルな画像表現に頼る代わりに、個々のパッチを原子キャプション単位として扱い、それらを集約して、単一パッチから非連続領域や全体像まで、任意の領域を記述する。
提案するフレームワークにおいて,現在の潜在キャプタの動作を可能にする重要な要素について分析する。
実験により、DINOのような有意義で高密度な視覚的特徴を生み出すバックボーンが、複数の地域ベースのキャプションタスクで最先端のパフォーマンスを達成する鍵であることを実証した。
他のベースラインや最先端の競合と比較して、我々はゼロショット密度、領域セット、および新たに導入されたトレースキャプションタスクの性能を向上し、スケーラブルなキャプション生成のためのパッチワイドなセマンティック表現の有効性を強調した。
プロジェクトページはhttps://paciosoft.com/Patch-ioner/。
関連論文リスト
- The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。
提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文 参考訳(メタデータ) (2025-03-31T03:00:19Z) - Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。
本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。
特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文 参考訳(メタデータ) (2025-01-03T18:09:26Z) - What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - Large-Scale Bidirectional Training for Zero-Shot Image Captioning [44.17587735943739]
本稿では、画像キャプションをゼロショットにするための効率的なトレーニングと推論のフレームワークであるBITTERSについて紹介する。
大規模なトレーニングセットとモデルアーキテクチャを慎重に選択することが,ゼロショット画像キャプションの実現の鍵であることを示す。
論文 参考訳(メタデータ) (2022-11-13T00:09:36Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Integrating Image Captioning with Rule-based Entity Masking [23.79124007406315]
本稿では,画像キャプションを明示的なオブジェクト(知識グラフエンティティなど)で選択するための新しいフレームワークを提案する。
モデルでは、まず、人解釈マスクに従ってキャプションに含まれるどのローカルエンティティを明示的に選択し、選択したエンティティに出席して適切なキャプションを生成する。
論文 参考訳(メタデータ) (2020-07-22T21:27:12Z) - Pragmatic Issue-Sensitive Image Captioning [11.998287522410404]
課題感性画像キャプション(ISIC)を提案する。
ISICは、ターゲット画像とイシューを付与したキャプションシステムであり、関連する情報を特定する方法で分割された画像の集合である。
我々は,ISICが視覚質問応答の関連タスクを補完し,強化する方法について述べる。
論文 参考訳(メタデータ) (2020-04-29T20:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。