論文の概要: LineCap: Line Charts for Data Visualization Captioning Models
- arxiv url: http://arxiv.org/abs/2207.07243v1
- Date: Fri, 15 Jul 2022 00:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-18 13:00:52.618933
- Title: LineCap: Line Charts for Data Visualization Captioning Models
- Title(参考訳): LineCap: データ可視化キャプションモデルのためのラインチャート
- Authors: Anita Mahinpei, Zona Kostic, Chris Tanner
- Abstract要約: LineCapは、3,528の数字からなる新しいフィギュアキャプションデータセットである。
我々は、このデータセットのキュレーションと、自動フィギュアキャプションのためのエンドツーエンドのディープラーニングモデルを用いた洞察を提供する。
- 参考スコア(独自算出の注目度): 6.3596637237946725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data visualization captions help readers understand the purpose of a
visualization and are crucial for individuals with visual impairments. The
prevalence of poor figure captions and the successful application of deep
learning approaches to image captioning motivate the use of similar techniques
for automated figure captioning. However, research in this field has been
stunted by the lack of suitable datasets. We introduce LineCap, a novel figure
captioning dataset of 3,528 figures, and we provide insights from curating this
dataset and using end-to-end deep learning models for automated figure
captioning.
- Abstract(参考訳): データビジュアライゼーションキャプションは、可視化の目的を理解し、視覚障害を持つ個人にとって不可欠である。
画像キャプションにおける文字キャプションの貧弱さと深層学習手法の有効利用は,字キャプションの自動化に類似した手法の使用を動機付けている。
しかし、この分野の研究は適切なデータセットの欠如に悩まされている。
3,528桁からなる新しい図形キャプションデータセットであるlinecapを紹介し、このデータセットのキュレーションと、エンドツーエンドのディープラーニングモデルによる自動キャプションに関する洞察を提供する。
関連論文リスト
- What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - View Selection for 3D Captioning via Diffusion Ranking [54.78058803763221]
Cap3D法は、3Dオブジェクトを2Dビューにレンダリングし、事前訓練されたモデルを用いてキャプションを行う。
3Dオブジェクトのレンダリングビューは、標準的な画像キャプションモデルのトレーニングデータから逸脱し、幻覚を引き起こす。
DiffuRankは、3Dオブジェクトとそれらの2Dレンダリングビューのアライメントを評価するために、事前訓練されたテキストから3Dモデルを利用する手法である。
論文 参考訳(メタデータ) (2024-04-11T17:58:11Z) - Inserting Faces inside Captions: Image Captioning with Attention Guided Merging [0.0]
画像キャプションタスク用のデータセットであるAstroCaptionsを紹介する。
キャプション内に識別された人物の名前を挿入するための新しいポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2024-03-20T08:38:25Z) - VisText: A Benchmark for Semantically Rich Chart Captioning [12.117737635879037]
VisTextは、チャートの構成を記述した12,441組のチャートとキャプションのデータセットである。
我々のモデルはコヒーレントで意味的に豊かなキャプションを生成し、最先端のチャートキャプションモデルと同等に機能する。
論文 参考訳(メタデータ) (2023-06-28T15:16:24Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - Cross-Domain Image Captioning with Discriminative Finetuning [20.585138136033905]
自己監督的な識別的コミュニケーションの目的を持ったアウト・オブ・ザ・ボックスのニューラルキャプタを微調整することは、プレーンで視覚的に記述された言語を回復するのに役立ちます。
画像識別タスクを担っているヒトのアノテータに対して,Vanilla ClipCapのキャプションや接地木キャプションよりも,識別的に微調整されたキャプションの方が有用であることを示す。
論文 参考訳(メタデータ) (2023-04-04T09:33:16Z) - Iconographic Image Captioning for Artworks [2.3859169601259342]
本研究は,Iconclass分類システムの概念を付加したアート画像の大規模データセットを利用する。
アノテーションはクリーンなテキスト記述に処理され、画像キャプションタスク上でディープニューラルネットワークモデルのトレーニングに適したデータセットを生成する。
画像データセットを用いて、トランスフォーマーに基づく視覚言語事前学習モデルを微調整する。
生成したキャプションの品質と新たなデータに一般化するモデルの能力について,新たな絵画コレクションにモデルを適用し,一般的なキャプションと芸術ジャンルの関係を解析することにより検討する。
論文 参考訳(メタデータ) (2021-02-07T23:11:33Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。