論文の概要: Satellite Captioning: Large Language Models to Augment Labeling
- arxiv url: http://arxiv.org/abs/2312.10905v1
- Date: Mon, 18 Dec 2023 03:21:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 21:26:04.296964
- Title: Satellite Captioning: Large Language Models to Augment Labeling
- Title(参考訳): 衛星キャプション:ラベリングを強化するための大型言語モデル
- Authors: Grant Rosario, David Noever
- Abstract要約: キャプションデータセットは、言語の違い、文法、そして人間がそれらを生成するのに要する時間により、はるかに難しい課題を示します。
現在のデータセットは確かに多くのインスタンスを扱えるが、キャプタがより限定的な語彙を持つ場合、問題となる。
本稿では,キャプションデータセットにおける潜在的な情報やコミュニケーションの欠陥の問題に対処することを目的とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing capabilities of modern object detection networks and
datasets to train them, it has gotten more straightforward and, importantly,
less laborious to get up and running with a model that is quite adept at
detecting any number of various objects. However, while image datasets for
object detection have grown and continue to proliferate (the current most
extensive public set, ImageNet, contains over 14m images with over 14m
instances), the same cannot be said for textual caption datasets. While they
have certainly been growing in recent years, caption datasets present a much
more difficult challenge due to language differences, grammar, and the time it
takes for humans to generate them. Current datasets have certainly provided
many instances to work with, but it becomes problematic when a captioner may
have a more limited vocabulary, one may not be adequately fluent in the
language, or there are simple grammatical mistakes. These difficulties are
increased when the images get more specific, such as remote sensing images.
This paper aims to address this issue of potential information and
communication shortcomings in caption datasets. To provide a more precise
analysis, we specify our domain of images to be remote sensing images in the
RSICD dataset and experiment with the captions provided here. Our findings
indicate that ChatGPT grammar correction is a simple and effective way to
increase the performance accuracy of caption models by making data captions
more diverse and grammatically correct.
- Abstract(参考訳): 現代のオブジェクト検出ネットワークとそれらを訓練するデータセットの能力が増大するにつれて、より簡単で、最も重要なことに、さまざまなオブジェクトを検知するモデルを使いこなすのに手間がかからなくなりました。
しかし、オブジェクト検出のためのイメージデータセットは成長し、増加を続けている(現在の最も広範なパブリックセットであるImageNetは、1400万以上のインスタンスを持つ1400万以上のイメージを含んでいる)が、テキストのキャプションデータセットでは、同じことが言えない。
彼らは近年確実に成長しているが、字幕データセットは、言語の違い、文法、そして人間が生成するのに要する時間などにより、はるかに難しい課題を示している。
現在のデータセットは確かに多くのインスタンスを扱えるが、キャプタがより限定的な語彙を持つ場合や、言語に十分に習熟していない場合、あるいは単純な文法ミスがある場合、問題となる。
これらの困難は、リモートセンシング画像など、画像がより具体的になると増加する。
本稿では,キャプションデータセットにおける潜在的な情報とコミュニケーションの欠点の問題に対処することを目的とする。
より正確な解析を行うため、RSICDデータセット内のリモートセンシング画像である画像の領域を指定し、ここで提供されるキャプションを実験する。
以上の結果から,chatgpt文法の修正は,データキャプションをより多様で文法的に正確にすることでキャプションモデルの精度を高めるための簡便かつ効果的な方法であることが示唆された。
関連論文リスト
- TagAlign: Improving Vision-Language Alignment with Multi-Tag
Classification [61.61682423314142]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の選択肢よりも平均3.65%のフレームワークの改善を裏付けます。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - Revising Image-Text Retrieval via Multi-Modal Entailment [25.988058843564335]
多対多のマッチング現象は、広く使われている画像テキスト検索データセットで非常によく見られる。
文が画像と関連キャプションによって関連付けられているかどうかを判定するマルチモーダル・エンターメント分類器を提案する。
論文 参考訳(メタデータ) (2022-08-22T07:58:54Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions Dataset [0.5893124686141781]
Banglaのようなリソース制約のある言語は、標準データセットの欠如が主な原因で、焦点が当てられていない。
Flickr8kで広く使われているデータセットのBAN-Capに続き、資格アノテータが提供した画像のBanglaキャプションを収集する。
テキスト増強の効果について検討し,適応的注意に基づくモデルと文脈的単語置換(CWR)を用いたテキスト増強が,Bangla画像キャプションの最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-28T15:39:09Z) - Bench-Marking And Improving Arabic Automatic Image Captioning Through
The Use Of Multi-Task Learning Paradigm [0.0]
本稿ではアラビア画像キャプションの性能を高める手法と手法について検討する。
マルチタスク学習と事前学習語埋め込みの使用により、画像キャプションの品質が著しく向上した。
しかし、提示された結果から、アラビア語の字幕化は、英語と比較してまだ遅れていることがわかる。
論文 参考訳(メタデータ) (2022-02-11T06:29:25Z) - #PraCegoVer: A Large Dataset for Image Captioning in Portuguese [6.890235464357029]
PraCegoVerは、ポルトガル語で画像キャプションを自由に注釈付けした最初の大規模なデータセットである。
PraCegoVerと呼ばれる動きがインターネット上で発生し、ソーシャルメディアからユーザーを刺激して画像をパブリッシュし、#PraCegoVerにタグ付けし、コンテンツの簡単な説明を追加します。
論文 参考訳(メタデータ) (2021-03-21T19:55:46Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z) - Discoverability in Satellite Imagery: A Good Sentence is Worth a
Thousand Pictures [0.0]
小さな衛星星座は地球の陸地を毎日カバーしている。
テキストアノテーションを原画素から抽出するには、2つの依存機械学習モデルが必要である。
衛星画像キャプションにおいて,これまでで最大のベンチマークで7つのモデルを評価した。
論文 参考訳(メタデータ) (2020-01-03T20:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。