論文の概要: TADACap: Time-series Adaptive Domain-Aware Captioning
- arxiv url: http://arxiv.org/abs/2504.11441v1
- Date: Tue, 15 Apr 2025 17:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:11:49.691988
- Title: TADACap: Time-series Adaptive Domain-Aware Captioning
- Title(参考訳): TADACap: 時系列適応型ドメイン認識キャプション
- Authors: Elizabeth Fons, Rachneet Kaur, Zhen Zeng, Soham Palande, Tucker Balch, Svitlana Vyetrenko, Manuela Veloso,
- Abstract要約: 時系列画像のドメイン認識キャプションを生成するための検索ベースのフレームワークであるTADACapを紹介する。
提案手法は,TADCap上に構築され,対象ドメインデータベースから多様な画像キャプチャペアを検索する新しい検索手法を提案する。
TADACap-diverseは、アノテーションの労力を大幅に削減しながら、同等のセマンティックな精度を示す。
- 参考スコア(独自算出の注目度): 13.49016808782399
- License:
- Abstract: While image captioning has gained significant attention, the potential of captioning time-series images, prevalent in areas like finance and healthcare, remains largely untapped. Existing time-series captioning methods typically offer generic, domain-agnostic descriptions of time-series shapes and struggle to adapt to new domains without substantial retraining. To address these limitations, we introduce TADACap, a retrieval-based framework to generate domain-aware captions for time-series images, capable of adapting to new domains without retraining. Building on TADACap, we propose a novel retrieval strategy that retrieves diverse image-caption pairs from a target domain database, namely TADACap-diverse. We benchmarked TADACap-diverse against state-of-the-art methods and ablation variants. TADACap-diverse demonstrates comparable semantic accuracy while requiring significantly less annotation effort.
- Abstract(参考訳): 画像キャプションは注目されているが、金融や医療などの分野で普及している時系列画像のキャプションの可能性はほとんどない。
既存の時系列キャプション法は、典型的には、時系列形状の汎用的でドメインに依存しない記述を提供し、実質的な再訓練なしに新しいドメインに適応するのに苦労する。
これらの制約に対処するために,時系列画像のドメイン認識キャプションを生成する検索ベースのフレームワークであるTADACapを導入する。
提案手法は,TADCap上に構築され,ターゲットドメインデータベース,すなわちTADCap-diverseから多様な画像キャプチャペアを検索する新しい検索手法を提案する。
我々はTADCap-diverseを最先端の手法とアブレーションの変種に対してベンチマークした。
TADACap-diverseは、アノテーションの労力を大幅に削減しながら、同等のセマンティックな精度を示す。
関連論文リスト
- Progress-Aware Video Frame Captioning [55.23366888264651]
本稿では,アクションシーケンス内の微細な時間的ダイナミクスをキャプチャするキャプションモデルであるProgressCaptionerを提案する。
我々は、トレーニングをサポートするFrameCapデータセットと、キャプションの品質を評価するFrameCapEvalベンチマークを開発する。
結果は、ProgressCaptionerが主要なキャプションモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-12-03T01:21:28Z) - A-CAP: Anticipation Captioning with Commonsense Knowledge [28.572510380683724]
本稿では,コモンセンス知識を事前学習した視覚言語モデルに組み込んだA-CAPモデルを提案する。
A-CAPは、他の画像キャプション法より優れ、予測キャプションのための強力なベースラインを確立する。
論文 参考訳(メタデータ) (2023-04-13T15:10:47Z) - CLID: Controlled-Length Image Descriptions with Limited Data [14.857590796528902]
本稿では,字幕の長さ,すなわち簡潔で簡潔な記述,あるいは長くて詳細な記述の制御に焦点を当てる。
既存の画像キャプションデータセットにはほとんど短いキャプションが含まれているため、長いキャプションを生成するのは難しい。
長いトレーニング例の不足に対処するため,様々な長さの自己生成キャプションでデータセットを充実させることを提案する。
論文 参考訳(メタデータ) (2022-11-27T14:18:40Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Self-Supervised Domain Adaptation for Diabetic Retinopathy Grading using
Vessel Image Reconstruction [61.58601145792065]
我々は網膜血管画像再構成に基づく新しい自己教師型タスクを定義することで、不変なターゲットドメインの特徴を学習する。
私たちのアプローチは既存のドメイン戦略よりも優れています。
論文 参考訳(メタデータ) (2021-07-20T09:44:07Z) - Understanding Guided Image Captioning Performance across Domains [22.283016988026926]
本稿では,画像キャプションが重視すべき概念を,ガイドテキストと呼ばれる追加入力を用いて制御する手法を提案する。
人的評価の結果から,画像キャプションを組み込むには,大規模で制限のない領域トレーニングデータセットへのアクセスが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-04T00:05:02Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。