Fugu-MT 論文翻訳(概要): LineCap: Line Charts for Data Visualization Captioning Models

論文の概要: LineCap: Line Charts for Data Visualization Captioning Models

arxiv url: http://arxiv.org/abs/2207.07243v1
Date: Fri, 15 Jul 2022 00:35:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-18 13:00:52.618933
Title: LineCap: Line Charts for Data Visualization Captioning Models
Title（参考訳）: LineCap: データ可視化キャプションモデルのためのラインチャート
Authors: Anita Mahinpei, Zona Kostic, Chris Tanner
Abstract要約: LineCapは、3,528の数字からなる新しいフィギュアキャプションデータセットである。我々は、このデータセットのキュレーションと、自動フィギュアキャプションのためのエンドツーエンドのディープラーニングモデルを用いた洞察を提供する。
参考スコア（独自算出の注目度）: 6.3596637237946725
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data visualization captions help readers understand the purpose of a visualization and are crucial for individuals with visual impairments. The prevalence of poor figure captions and the successful application of deep learning approaches to image captioning motivate the use of similar techniques for automated figure captioning. However, research in this field has been stunted by the lack of suitable datasets. We introduce LineCap, a novel figure captioning dataset of 3,528 figures, and we provide insights from curating this dataset and using end-to-end deep learning models for automated figure captioning.
Abstract（参考訳）: データビジュアライゼーションキャプションは、可視化の目的を理解し、視覚障害を持つ個人にとって不可欠である。画像キャプションにおける文字キャプションの貧弱さと深層学習手法の有効利用は,字キャプションの自動化に類似した手法の使用を動機付けている。しかし、この分野の研究は適切なデータセットの欠如に悩まされている。 3,528桁からなる新しい図形キャプションデータセットであるlinecapを紹介し、このデータセットのキュレーションと、エンドツーエンドのディープラーニングモデルによる自動キャプションに関する洞察を提供する。

関連論文リスト

The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文参考訳（メタデータ） (2025-03-31T03:00:19Z)
What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文参考訳（メタデータ） (2024-05-01T12:49:57Z)
Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。 i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文参考訳（メタデータ） (2024-04-26T15:56:08Z)
View Selection for 3D Captioning via Diffusion Ranking [54.78058803763221]
Cap3D法は、3Dオブジェクトを2Dビューにレンダリングし、事前訓練されたモデルを用いてキャプションを行う。 3Dオブジェクトのレンダリングビューは、標準的な画像キャプションモデルのトレーニングデータから逸脱し、幻覚を引き起こす。 DiffuRankは、3Dオブジェクトとそれらの2Dレンダリングビューのアライメントを評価するために、事前訓練されたテキストから3Dモデルを利用する手法である。
論文参考訳（メタデータ） (2024-04-11T17:58:11Z)
Inserting Faces inside Captions: Image Captioning with Attention Guided Merging [0.0]
画像キャプションタスク用のデータセットであるAstroCaptionsを紹介する。キャプション内に識別された人物の名前を挿入するための新しいポストプロセッシング手法を提案する。
論文参考訳（メタデータ） (2024-03-20T08:38:25Z)
VisText: A Benchmark for Semantically Rich Chart Captioning [12.117737635879037]
VisTextは、チャートの構成を記述した12,441組のチャートとキャプションのデータセットである。我々のモデルはコヒーレントで意味的に豊かなキャプションを生成し、最先端のチャートキャプションモデルと同等に機能する。
論文参考訳（メタデータ） (2023-06-28T15:16:24Z)
FuseCap: Leveraging Large Language Models for Enriched Fused Image Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文参考訳（メタデータ） (2023-05-28T13:16:03Z)
Cross-Domain Image Captioning with Discriminative Finetuning [20.585138136033905]
自己監督的な識別的コミュニケーションの目的を持ったアウト・オブ・ザ・ボックスのニューラルキャプタを微調整することは、プレーンで視覚的に記述された言語を回復するのに役立ちます。画像識別タスクを担っているヒトのアノテータに対して,Vanilla ClipCapのキャプションや接地木キャプションよりも,識別的に微調整されたキャプションの方が有用であることを示す。
論文参考訳（メタデータ） (2023-04-04T09:33:16Z)
Iconographic Image Captioning for Artworks [2.3859169601259342]
本研究は,Iconclass分類システムの概念を付加したアート画像の大規模データセットを利用する。アノテーションはクリーンなテキスト記述に処理され、画像キャプションタスク上でディープニューラルネットワークモデルのトレーニングに適したデータセットを生成する。画像データセットを用いて、トランスフォーマーに基づく視覚言語事前学習モデルを微調整する。生成したキャプションの品質と新たなデータに一般化するモデルの能力について,新たな絵画コレクションにモデルを適用し,一般的なキャプションと芸術ジャンルの関係を解析することにより検討する。
論文参考訳（メタデータ） (2021-02-07T23:11:33Z)
VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文参考訳（メタデータ） (2020-09-28T23:20:02Z)
Egoshots, an ego-vision life-logging dataset and semantic fidelity metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文参考訳（メタデータ） (2020-03-26T04:43:30Z)
TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文参考訳（メタデータ） (2020-03-24T02:38:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。