論文の概要: Falcon: A Remote Sensing Vision-Language Foundation Model
- arxiv url: http://arxiv.org/abs/2503.11070v1
- Date: Fri, 14 Mar 2025 04:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:28.104658
- Title: Falcon: A Remote Sensing Vision-Language Foundation Model
- Title(参考訳): Falcon:リモートセンシングビジョンランゲージ財団モデル
- Authors: Kelu Yao, Nuo Xu, Rong Yang, Yingying Xu, Zhuoyan Gao, Titinunt Kitrungrotsakul, Yi Ren, Pu Zhang, Jin Wang, Ning Wei, Chao Li,
- Abstract要約: 本稿では,リモートセンシングに適した総合的視覚言語基盤モデルであるFalconを紹介する。
Falconは、包括的で複雑なリモートセンシングタスクを効果的に実行する、統一的でプロンプトベースのパラダイムを提供する。
Falconは、画像分類、オブジェクト検出、セグメンテーション、画像キャプションなど、14の異なるタスクにわたるテキスト形式で印象的な結果を生成することができる。
- 参考スコア(独自算出の注目度): 24.64572487181385
- License:
- Abstract: This paper introduces a holistic vision-language foundation model tailored for remote sensing, named Falcon. Falcon offers a unified, prompt-based paradigm that effectively executes comprehensive and complex remote sensing tasks. Falcon demonstrates powerful understanding and reasoning abilities at the image, region, and pixel levels. Specifically, given simple natural language instructions and remote sensing images, Falcon can produce impressive results in text form across 14 distinct tasks, i.e., image classification, object detection, segmentation, image captioning, and etc. To facilitate Falcon's training and empower its representation capacity to encode rich spatial and semantic information, we developed Falcon_SFT, a large-scale, multi-task, instruction-tuning dataset in the field of remote sensing. The Falcon_SFT dataset consists of approximately 78 million high-quality data samples, covering 5.6 million multi-spatial resolution and multi-view remote sensing images with diverse instructions. It features hierarchical annotations and undergoes manual sampling verification to ensure high data quality and reliability. Extensive comparative experiments are conducted, which verify that Falcon achieves remarkable performance over 67 datasets and 14 tasks, despite having only 0.7B parameters. We release the complete dataset, code, and model weights at https://github.com/TianHuiLab/Falcon, hoping to help further develop the open-source community.
- Abstract(参考訳): 本稿では,リモートセンシングに適した総合的視覚言語基盤モデルであるFalconを紹介する。
Falconは、包括的で複雑なリモートセンシングタスクを効果的に実行する、統一的でプロンプトベースのパラダイムを提供する。
Falconは画像、領域、ピクセルレベルで強力な理解と推論能力を示す。
具体的には、単純な自然言語命令とリモートセンシング画像によって、Falconは14の異なるタスク(画像分類、オブジェクト検出、セグメンテーション、画像キャプションなど)にまたがるテキスト形式で印象的な結果を生成することができる。
Falconのトレーニングの促進と、その表現能力の強化を目的として、リモートセンシング分野における大規模でマルチタスクなインストラクションチューニングデータセットであるFalcon_SFTを開発した。
Falcon_SFTデータセットは、約7800万の高品質なデータサンプルで構成され、560万のマルチ空間解像度と多様な指示を伴うマルチビューリモートセンシング画像を含んでいる。
階層的なアノテーションを備え、手動によるサンプリング検証を実施し、高いデータ品質と信頼性を保証する。
大規模な比較実験が行われ、Falconは0.7Bパラメータしか持たないにもかかわらず、67のデータセットと14のタスクで顕著なパフォーマンスを達成した。
私たちは、オープンソースコミュニティのさらなる発展を支援するために、https://github.com/TianHuiLab/Falconで、完全なデータセット、コード、モデルウェイトをリリースしています。
関連論文リスト
- FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。
我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。
実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文 参考訳(メタデータ) (2024-09-20T14:33:17Z) - RSTeller: Scaling Up Visual Language Modeling in Remote Sensing with Rich Linguistic Semantics from Openly Available Data and Large Language Models [5.981597754991408]
我々は,Google Earth Engine (GEE) プラットフォームから取得した画像に対して,平易な OpenStreetMap (OSM) データから,意味的に豊富なキャプションを持つマルチモーダルデータセットを大規模に生成するワークフローを提案する。
本稿では,13万以上のRS画像からなるマルチモーダルデータセットであるRSTellerについて述べる。
論文 参考訳(メタデータ) (2024-08-27T02:45:26Z) - SkyScript: A Large and Semantically Diverse Vision-Language Dataset for
Remote Sensing [14.79627534702196]
我々は、29Kの異なるセマンティックタグを含む260万の画像テキストペアからなる、リモートセンシング画像のための視覚言語データセットを構築した。
このデータセット上で連続的な事前学習を行うことで、ゼロショットシーン分類において平均精度が6.2%のベースラインモデルを超えるVLMが得られる。
また、オブジェクト属性の細粒度分類とクロスモーダル検索のためのゼロショット転送の能力を示す。
論文 参考訳(メタデータ) (2023-12-20T09:19:48Z) - MetaSegNet: Metadata-collaborative Vision-Language Representation Learning for Semantic Segmentation of Remote Sensing Images [7.0622873873577054]
リモートセンシング画像のセグメンテーションのための新しいメタデータ協調セグメンテーションネットワーク(MetaSegNet)を提案する。
一元的視覚データのみを使用する一般的なモデル構造とは異なり、我々は自由に利用可能なリモートセンシング画像メタデータから重要な特徴を抽出する。
画像エンコーダ,テキストエンコーダ,およびクロスモーダルアテンション融合サブネットワークを構築し,画像とテキストの特徴を抽出する。
論文 参考訳(メタデータ) (2023-12-20T03:16:34Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Identifying Interpretable Subspaces in Image Representations [54.821222487956355]
コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。
ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。
キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
論文 参考訳(メタデータ) (2023-07-20T00:02:24Z) - A New Path: Scaling Vision-and-Language Navigation with Synthetic
Instructions and Imitation Learning [70.14372215250535]
VLN(Vision-and-Language Navigation)の最近の研究は、RLエージェントを訓練して、フォトリアリスティックな環境で自然言語ナビゲーション命令を実行する。
人間の指導データが不足し、訓練環境の多様性が限られていることを考えると、これらのエージェントは複雑な言語基盤と空間言語理解に苦慮している。
我々は、密集した360度パノラマで捉えた500以上の屋内環境を取り、これらのパノラマを通して航法軌道を構築し、各軌道に対して視覚的に接地された指示を生成する。
4.2Mの命令-軌道対のデータセットは、既存の人間の注釈付きデータセットよりも2桁大きい。
論文 参考訳(メタデータ) (2022-10-06T17:59:08Z) - DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort [117.41383937100751]
現在のディープネットワークは、大規模なデータセットのトレーニングの恩恵を受ける、非常にデータハングリーです。
GAN潜入コードがどのようにデコードされ、イメージのセマンティックセグメンテーションを生成するかを示す。
これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用できます。
論文 参考訳(メタデータ) (2021-04-13T20:08:29Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。