論文の概要: GroundCap: A Visually Grounded Image Captioning Dataset
- arxiv url: http://arxiv.org/abs/2502.13898v2
- Date: Mon, 24 Mar 2025 17:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:32:21.724769
- Title: GroundCap: A Visually Grounded Image Captioning Dataset
- Title(参考訳): GroundCap: 視覚的にグラウンド化された画像キャプチャーデータセット
- Authors: Daniel A. P. Oliveira, Lourenço Teodoro, David Martins de Matos,
- Abstract要約: 本稿では,一貫したオブジェクト参照追跡とアクションオブジェクトリンクを可能にする新しいIDベースグラウンドシステムを提案する。
77本の映画から52,016枚の画像を含むデータセットであるGroundCapについて,344個の人称注釈と52,016個の字幕を自動生成する。
- 参考スコア(独自算出の注目度): 0.21847754147782888
- License:
- Abstract: Current image captioning systems lack the ability to link descriptive text to specific visual elements, making their outputs difficult to verify. While recent approaches offer some grounding capabilities, they cannot track object identities across multiple references or ground both actions and objects simultaneously. We propose a novel ID-based grounding system that enables consistent object reference tracking and action-object linking, and present GroundCap, a dataset containing 52,016 images from 77 movies, with 344 human-annotated and 52,016 automatically generated captions. Each caption is grounded on detected objects (132 classes) and actions (51 classes) using a tag system that maintains object identity while linking actions to the corresponding objects. Our approach features persistent object IDs for reference tracking, explicit action-object linking, and segmentation of background elements through K-means clustering. We propose gMETEOR, a metric combining caption quality with grounding accuracy, and establish baseline performance by fine-tuning Pixtral-12B. Human evaluation demonstrates our approach's effectiveness in producing verifiable descriptions with coherent object references.
- Abstract(参考訳): 現在の画像キャプションシステムでは、記述テキストを特定の視覚要素にリンクする機能がなく、その出力を検証するのが困難である。
最近のアプローチはいくつかの基盤機能を提供しているが、複数の参照やアクションとオブジェクトの両方を同時にグラウンドするオブジェクトのアイデンティティを追跡することはできない。
本研究では,一貫したオブジェクト参照追跡とアクションオブジェクトリンクを可能にする新しいIDベースグラウンドシステムと,77本の映画から52,016枚の画像を含むデータセットであるGroundCapと,344個の人称注釈と52,016個の自動生成キャプションを提案する。
各キャプションは、検出されたオブジェクト(132クラス)とアクション(51クラス)に基づいて、対応するオブジェクトにアクションをリンクしながらオブジェクトのアイデンティティを保持するタグシステムを使用する。
提案手法は,参照追跡,明示的なアクションオブジェクトリンク,K平均クラスタリングによる背景要素のセグメンテーションのための永続オブジェクトIDを特徴とする。
本稿では,キャプション品質と接地精度を組み合わせたメートル法であるgMETEORを提案し,Pixtral-12Bの微調整によりベースライン性能を確立する。
人間の評価は、コヒーレントなオブジェクト参照で検証可能な記述を生成する上で、我々のアプローチの有効性を示す。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Leveraging Unknown Objects to Construct Labeled-Unlabeled Meta-Relationships for Zero-Shot Object Navigation [14.336117107170153]
ゼロショットオブジェクトナビゲーション(ZSON)は、エージェントがトレーニングセットに存在しない未確認オブジェクトにナビゲートする状況に対処する。
ラベルのない物体を訓練手順に導入し、エージェントの知識基盤を識別可能だが、これまで見過ごされていた情報で強化する。
論文 参考訳(メタデータ) (2024-05-24T05:26:18Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - CiteTracker: Correlating Image and Text for Visual Tracking [114.48653709286629]
我々は、画像とテキストを接続することで、視覚的トラッキングにおけるターゲットモデリングと推論を強化するCiteTrackerを提案する。
具体的には、ターゲット画像パッチを記述テキストに変換するテキスト生成モジュールを開発する。
次に、注目に基づく相関モジュールを用いて対象記述と検索画像を関連付け、対象状態参照のための相関特徴を生成する。
論文 参考訳(メタデータ) (2023-08-22T09:53:12Z) - Top-Down Framework for Weakly-supervised Grounded Image Captioning [19.00510117145054]
弱教師付き接地画像キャプションは、バウンディングボックスの監督を使わずに、入力画像中のキャプションとグラウンド(局所化)予測対象語を生成することを目的としている。
本稿では,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド実行を行う一段弱教師付き接地キャプタを提案する。
論文 参考訳(メタデータ) (2023-06-13T01:42:18Z) - Read, look and detect: Bounding box annotation from image-caption pairs [2.0305676256390934]
本稿では,画像中のオブジェクトの特定とラベル付けを行う手法について,より弱い監督方法であるイメージ・キャプション・ペアを用いて提案する。
Flickr30k COCOを用いたフレーズグラウンドで47.51%のリコール@1スコアを達成し,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-06-09T12:23:20Z) - Detector Guidance for Multi-Object Text-to-Image Generation [61.70018793720616]
Detector Guidance(DG)は、潜在オブジェクト検出モデルを統合して、生成プロセス中に異なるオブジェクトを分離する。
人間の評価は、DGが対立する概念の融合を防ぐのに8-22%の利点をもたらすことを示した。
論文 参考訳(メタデータ) (2023-06-04T02:33:12Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。