論文の概要: Satellite Captioning: Large Language Models to Augment Labeling
- arxiv url: http://arxiv.org/abs/2312.10905v1
- Date: Mon, 18 Dec 2023 03:21:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 21:26:04.296964
- Title: Satellite Captioning: Large Language Models to Augment Labeling
- Title(参考訳): 衛星キャプション:ラベリングを強化するための大型言語モデル
- Authors: Grant Rosario, David Noever
- Abstract要約: キャプションデータセットは、言語の違い、文法、そして人間がそれらを生成するのに要する時間により、はるかに難しい課題を示します。
現在のデータセットは確かに多くのインスタンスを扱えるが、キャプタがより限定的な語彙を持つ場合、問題となる。
本稿では,キャプションデータセットにおける潜在的な情報やコミュニケーションの欠陥の問題に対処することを目的とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing capabilities of modern object detection networks and
datasets to train them, it has gotten more straightforward and, importantly,
less laborious to get up and running with a model that is quite adept at
detecting any number of various objects. However, while image datasets for
object detection have grown and continue to proliferate (the current most
extensive public set, ImageNet, contains over 14m images with over 14m
instances), the same cannot be said for textual caption datasets. While they
have certainly been growing in recent years, caption datasets present a much
more difficult challenge due to language differences, grammar, and the time it
takes for humans to generate them. Current datasets have certainly provided
many instances to work with, but it becomes problematic when a captioner may
have a more limited vocabulary, one may not be adequately fluent in the
language, or there are simple grammatical mistakes. These difficulties are
increased when the images get more specific, such as remote sensing images.
This paper aims to address this issue of potential information and
communication shortcomings in caption datasets. To provide a more precise
analysis, we specify our domain of images to be remote sensing images in the
RSICD dataset and experiment with the captions provided here. Our findings
indicate that ChatGPT grammar correction is a simple and effective way to
increase the performance accuracy of caption models by making data captions
more diverse and grammatically correct.
- Abstract(参考訳): 現代のオブジェクト検出ネットワークとそれらを訓練するデータセットの能力が増大するにつれて、より簡単で、最も重要なことに、さまざまなオブジェクトを検知するモデルを使いこなすのに手間がかからなくなりました。
しかし、オブジェクト検出のためのイメージデータセットは成長し、増加を続けている(現在の最も広範なパブリックセットであるImageNetは、1400万以上のインスタンスを持つ1400万以上のイメージを含んでいる)が、テキストのキャプションデータセットでは、同じことが言えない。
彼らは近年確実に成長しているが、字幕データセットは、言語の違い、文法、そして人間が生成するのに要する時間などにより、はるかに難しい課題を示している。
現在のデータセットは確かに多くのインスタンスを扱えるが、キャプタがより限定的な語彙を持つ場合や、言語に十分に習熟していない場合、あるいは単純な文法ミスがある場合、問題となる。
これらの困難は、リモートセンシング画像など、画像がより具体的になると増加する。
本稿では,キャプションデータセットにおける潜在的な情報とコミュニケーションの欠点の問題に対処することを目的とする。
より正確な解析を行うため、RSICDデータセット内のリモートセンシング画像である画像の領域を指定し、ここで提供されるキャプションを実験する。
以上の結果から,chatgpt文法の修正は,データキャプションをより多様で文法的に正確にすることでキャプションモデルの精度を高めるための簡便かつ効果的な方法であることが示唆された。
関連論文リスト
- BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions [118.35194230865451]
BLIP3-KALEは2億1800万の画像テキストペアからなるデータセットである。
KALEは、合成高密度画像キャプションをWebスケールのalt-textで拡張し、事実上接地された画像キャプションを生成する。
我々は、KALE上で視覚言語モデルを訓練し、視覚言語タスクの改善を示す。
論文 参考訳(メタデータ) (2024-11-12T00:52:52Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions Dataset [0.5893124686141781]
Banglaのようなリソース制約のある言語は、標準データセットの欠如が主な原因で、焦点が当てられていない。
Flickr8kで広く使われているデータセットのBAN-Capに続き、資格アノテータが提供した画像のBanglaキャプションを収集する。
テキスト増強の効果について検討し,適応的注意に基づくモデルと文脈的単語置換(CWR)を用いたテキスト増強が,Bangla画像キャプションの最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-28T15:39:09Z) - Bench-Marking And Improving Arabic Automatic Image Captioning Through
The Use Of Multi-Task Learning Paradigm [0.0]
本稿ではアラビア画像キャプションの性能を高める手法と手法について検討する。
マルチタスク学習と事前学習語埋め込みの使用により、画像キャプションの品質が著しく向上した。
しかし、提示された結果から、アラビア語の字幕化は、英語と比較してまだ遅れていることがわかる。
論文 参考訳(メタデータ) (2022-02-11T06:29:25Z) - #PraCegoVer: A Large Dataset for Image Captioning in Portuguese [6.890235464357029]
PraCegoVerは、ポルトガル語で画像キャプションを自由に注釈付けした最初の大規模なデータセットである。
PraCegoVerと呼ばれる動きがインターネット上で発生し、ソーシャルメディアからユーザーを刺激して画像をパブリッシュし、#PraCegoVerにタグ付けし、コンテンツの簡単な説明を追加します。
論文 参考訳(メタデータ) (2021-03-21T19:55:46Z) - Discoverability in Satellite Imagery: A Good Sentence is Worth a
Thousand Pictures [0.0]
小さな衛星星座は地球の陸地を毎日カバーしている。
テキストアノテーションを原画素から抽出するには、2つの依存機械学習モデルが必要である。
衛星画像キャプションにおいて,これまでで最大のベンチマークで7つのモデルを評価した。
論文 参考訳(メタデータ) (2020-01-03T20:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。