論文の概要: Describe Anything: Detailed Localized Image and Video Captioning
- arxiv url: http://arxiv.org/abs/2504.16072v1
- Date: Tue, 22 Apr 2025 17:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 16:59:20.111372
- Title: Describe Anything: Detailed Localized Image and Video Captioning
- Title(参考訳): Describe Anything: 詳細なローカライズされた画像とビデオのキャプション
- Authors: Long Lian, Yifan Ding, Yunhao Ge, Sifei Liu, Hanzi Mao, Boyi Li, Marco Pavone, Ming-Yu Liu, Trevor Darrell, Adam Yala, Yin Cui,
- Abstract要約: Describe Anything Model (DAM) について紹介する。
そこで我々は,高品質なDLCデータの不足に対処するために,半教師付き学習(SSL)ベースのデータパイプライン(DLC-SDP)を提案する。
DAMは、キーワードレベル、フレーズレベル、詳細なマルチ文ローカライズされた画像とビデオキャプションにまたがる7つのベンチマークに、新しい最先端のベンチマークを設定する。
- 参考スコア(独自算出の注目度): 89.37016119012068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating detailed and accurate descriptions for specific regions in images and videos remains a fundamental challenge for vision-language models. We introduce the Describe Anything Model (DAM), a model designed for detailed localized captioning (DLC). DAM preserves both local details and global context through two key innovations: a focal prompt, which ensures high-resolution encoding of targeted regions, and a localized vision backbone, which integrates precise localization with its broader context. To tackle the scarcity of high-quality DLC data, we propose a Semi-supervised learning (SSL)-based Data Pipeline (DLC-SDP). DLC-SDP starts with existing segmentation datasets and expands to unlabeled web images using SSL. We introduce DLC-Bench, a benchmark designed to evaluate DLC without relying on reference captions. DAM sets new state-of-the-art on 7 benchmarks spanning keyword-level, phrase-level, and detailed multi-sentence localized image and video captioning.
- Abstract(参考訳): 画像やビデオの特定の領域に関する詳細かつ正確な記述を生成することは、視覚言語モデルにおける根本的な課題である。
Describe Anything Model (DAM) は, 詳細な局所的キャプション(DLC)のためのモデルである。
DAMは、ターゲット領域の高解像度エンコーディングを保証する焦点プロンプトと、より広いコンテキストに正確なローカライゼーションを統合するローカライズされたビジョンバックボーンという、2つの重要なイノベーションを通じて、局所的詳細とグローバルなコンテキストの両方を保存している。
高品質なDLCデータの不足に対処するために,Semi-supervised learning (SSL)-based Data Pipeline (DLC-SDP)を提案する。
DLC-SDPは既存のセグメンテーションデータセットから始まり、SSLを使ってラベルなしのWebイメージに拡張する。
DLC-Benchは参照キャプションに頼らずにDLCを評価するためのベンチマークである。
DAMは、キーワードレベル、フレーズレベル、詳細なマルチ文ローカライズされた画像とビデオキャプションにまたがる7つのベンチマークに、新しい最先端のベンチマークを設定する。
関連論文リスト
- URECA: Unique Region Caption Anything [29.363967361960043]
地域レベルのキャプションは、特徴を強調しながら、特定の画像領域の自然言語記述を生成することを目的としている。
マルチグラニュラリティ領域キャプションに適した大規模データセットであるURECAデータセットを紹介する。
多粒度領域を効果的に符号化する新しいキャプションモデルであるURECAを提案する。
論文 参考訳(メタデータ) (2025-04-07T17:59:44Z) - The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。
提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文 参考訳(メタデータ) (2025-03-31T03:00:19Z) - Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。
画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。
そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文 参考訳(メタデータ) (2024-12-11T18:37:42Z) - Grounded Video Caption Generation [74.23767687855279]
そこで我々は,グラウンドドビデオキャプション生成のための新しいタスク,データセット,モデルを提案する。
このタスクはビデオ内のキャプションとオブジェクトのグラウンドを統一し、キャプション内のオブジェクトは時間的に一貫したバウンディングボックスを通じてビデオ内にグラウンドされる。
本稿では,新しいビデオキャプション生成モデルであるVideoGroundを導入し,自動アノテーション付きHowToGroundデータセット上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-11-12T06:44:24Z) - BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions [118.35194230865451]
BLIP3-KALEは2億1800万の画像テキストペアからなるデータセットである。
KALEは、合成高密度画像キャプションをWebスケールのalt-textで拡張し、事実上接地された画像キャプションを生成する。
我々は、KALE上で視覚言語モデルを訓練し、視覚言語タスクの改善を示す。
論文 参考訳(メタデータ) (2024-11-12T00:52:52Z) - Do More Details Always Introduce More Hallucinations in LVLM-based Image Captioning? [29.237078890377514]
LVLM(Large Vision-Language Models)は、視覚的コンテキストと言語的コンテキストを統合することで、詳細なコンテンツを生成する。
LVLMを使用して記述を生成すると、出力テキストが入力画像内の実際のオブジェクトを誤って表現するオブジェクト幻覚(OH)の課題に直面します。
本稿では,新しい復号化戦略である微分ビーム復号法(DBD)と信頼性の高い新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:33:56Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。