論文の概要: Discoverability in Satellite Imagery: A Good Sentence is Worth a
Thousand Pictures
- arxiv url: http://arxiv.org/abs/2001.05839v1
- Date: Fri, 3 Jan 2020 20:41:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 17:20:21.816877
- Title: Discoverability in Satellite Imagery: A Good Sentence is Worth a
Thousand Pictures
- Title(参考訳): 衛星画像の発見可能性:良い文は数千枚の写真である
- Authors: David Noever, Wes Regian, Matt Ciolino, Josh Kalin, Dom Hambrick, Kaye
Blankenship
- Abstract要約: 小さな衛星星座は地球の陸地を毎日カバーしている。
テキストアノテーションを原画素から抽出するには、2つの依存機械学習モデルが必要である。
衛星画像キャプションにおいて,これまでで最大のベンチマークで7つのモデルを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small satellite constellations provide daily global coverage of the earth's
landmass, but image enrichment relies on automating key tasks like change
detection or feature searches. For example, to extract text annotations from
raw pixels requires two dependent machine learning models, one to analyze the
overhead image and the other to generate a descriptive caption. We evaluate
seven models on the previously largest benchmark for satellite image captions.
We extend the labeled image samples five-fold, then augment, correct and prune
the vocabulary to approach a rough min-max (minimum word, maximum description).
This outcome compares favorably to previous work with large pre-trained image
models but offers a hundred-fold reduction in model size without sacrificing
overall accuracy (when measured with log entropy loss). These smaller models
provide new deployment opportunities, particularly when pushed to edge
processors, on-board satellites, or distributed ground stations. To quantify a
caption's descriptiveness, we introduce a novel multi-class confusion or error
matrix to score both human-labeled test data and never-labeled images that
include bounding box detection but lack full sentence captions. This work
suggests future captioning strategies, particularly ones that can enrich the
class coverage beyond land use applications and that lessen color-centered and
adjacency adjectives ("green", "near", "between", etc.). Many modern language
transformers present novel and exploitable models with world knowledge gleaned
from training from their vast online corpus. One interesting, but easy example
might learn the word association between wind and waves, thus enriching a beach
scene with more than just color descriptions that otherwise might be accessed
from raw pixels without text annotation.
- Abstract(参考訳): 小さな衛星コンステレーションは地球の陸地を毎日カバーしているが、画像エンリッチメントは変化検出や特徴検索といった重要なタスクの自動化に依存している。
例えば、生のピクセルからテキストアノテーションを抽出するには、2つの依存する機械学習モデルが必要であり、1つはオーバーヘッド画像を分析し、もう1つは記述的なキャプションを生成する。
衛星画像キャプションの過去最大のベンチマークで7つのモデルを評価した。
ラベル付き画像サンプルを5倍に拡張し,次に語彙を拡大,修正し,大まかなmin-max(最小語,最大記述)にアプローチする。
この結果は、事前訓練された大規模な画像モデルによる以前の研究と好意的に比較できるが、全体的な精度を犠牲にすることなく、100倍のモデルサイズの縮小をもたらす(ログエントロピー損失で測定した場合)。
これらの小型モデルは、特にエッジプロセッサ、オンボード衛星、あるいは分散地上ステーションにプッシュされた場合、新しい展開機会を提供する。
キャプションの記述性を定量化するために,人間のラベル付きテストデータと,境界ボックス検出を含むが文全文を欠いたラベルなし画像の両方をスコアする,新しいマルチクラス混乱行列を導入する。
この研究は、将来のキャプション戦略、特に土地利用アプリケーションを超えてクラスカバレッジを豊かにし、色中心および隣接形容詞を小さくする("green", "near", "between"など)ことを示唆している。
多くの現代言語トランスフォーマーは、その広大なオンラインコーパスから訓練を受け、世界的知識を持つ、斬新で活用可能なモデルを提示している。
興味深いが簡単な例の1つは、風と波の間の単語の関連を学習することで、テキストの注釈なしで生のピクセルからアクセス可能な色記述以上のビーチシーンを豊かにする。
関連論文リスト
- Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - Satellite Captioning: Large Language Models to Augment Labeling [0.0]
キャプションデータセットは、言語の違い、文法、そして人間がそれらを生成するのに要する時間により、はるかに難しい課題を示します。
現在のデータセットは確かに多くのインスタンスを扱えるが、キャプタがより限定的な語彙を持つ場合、問題となる。
本稿では,キャプションデータセットにおける潜在的な情報やコミュニケーションの欠陥の問題に対処することを目的とする。
論文 参考訳(メタデータ) (2023-12-18T03:21:58Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Visually grounded few-shot word learning in low-resource settings [23.826000011632917]
そこで本研究では,数組の単語イメージ対から新しい単語とその視覚的描写を学習する音声モデルを提案する。
提案手法では,与えられた単語イメージの例対を用いて,音声と画像の大規模なコレクションから教師なしの単語イメージトレーニングペアを抽出する。
この新しいモデルでは、既存の英語ベンチマークの以前のアプローチよりも少ないショットでより良いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-06-20T08:27:42Z) - Image Captioning with Multi-Context Synthetic Data [16.961112970612447]
大規模なモデルは高品質な画像やテキストを作成するのに優れています。
マルチコンテキストデータ生成を導入した革新的なパイプラインを提案する。
我々のモデルは、このプロセスを通じて構築された合成画像テキストペアに特化して訓練されている。
論文 参考訳(メタデータ) (2023-05-29T13:18:59Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Describe What to Change: A Text-guided Unsupervised Image-to-Image
Translation Approach [84.22327278486846]
本稿では,画像から画像への変換に基づく新しい教師なしの手法を提案する。
本モデルは視覚的属性から画像内容を切り離し,テキスト記述を用いて後者を変更することを学習する。
実験により,提案モデルが2つの大規模公開データセットに対して有望な性能を達成することを示す。
論文 参考訳(メタデータ) (2020-08-10T15:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。