論文の概要: TEOChat: A Large Vision-Language Assistant for Temporal Earth Observation Data
- arxiv url: http://arxiv.org/abs/2410.06234v1
- Date: Tue, 8 Oct 2024 17:45:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 10:31:16.267945
- Title: TEOChat: A Large Vision-Language Assistant for Temporal Earth Observation Data
- Title(参考訳): TEOChat: 時間的地球観測データのための大型ビジョンランゲージアシスタント
- Authors: Jeremy Andrew Irvin, Emily Ruoyu Liu, Joyce Chuyi Chen, Ines Dormoy, Jinyoung Kim, Samar Khanna, Zhuo Zheng, Stefano Ermon,
- Abstract要約: 我々はTEOChatと呼ばれるビジョンと言語アシスタントを開発し、地球観測データの時間的シーケンスに関する会話を行う。
TEOChatを訓練するために、多数の単一画像と時間的タスクからなる命令追従データセットをキュレートする。
TEOChatは様々な空間的・時間的推論タスクを実行でき、従来のビジョンや言語アシスタントよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 41.35996004601508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision and language assistants have enabled new capabilities for interpreting natural images. These approaches have recently been adapted to earth observation data, but they are only able to handle single image inputs, limiting their use for many real-world tasks. In this work, we develop a new vision and language assistant called TEOChat that can engage in conversations about temporal sequences of earth observation data. To train TEOChat, we curate an instruction-following dataset composed of many single image and temporal tasks including building change and damage assessment, semantic change detection, and temporal scene classification. We show that TEOChat can perform a wide variety of spatial and temporal reasoning tasks, substantially outperforming previous vision and language assistants, and even achieving comparable or better performance than specialist models trained to perform these specific tasks. Furthermore, TEOChat achieves impressive zero-shot performance on a change detection and change question answering dataset, outperforms GPT-4o and Gemini 1.5 Pro on multiple temporal tasks, and exhibits stronger single image capabilities than a comparable single EO image instruction-following model. We publicly release our data, models, and code at https://github.com/ermongroup/TEOChat .
- Abstract(参考訳): 大きな視覚と言語アシスタントは、自然なイメージを解釈する新しい機能を可能にした。
これらのアプローチは地球観測データに適用されているが、単一の画像入力しか処理できず、多くの実世界のタスクでの使用を制限することができる。
本研究では,地球観測データの時間的順序に関する会話を行うTEOChatという新しいビジョンと言語アシスタントを開発する。
TEOChatを訓練するために,建物変更や損傷評価,意味変化検出,時間的シーン分類など,多数の単一画像と時間的タスクからなる指示追従データセットをキュレートする。
TEOChatは、様々な空間的・時間的推論タスクを実行でき、従来のビジョンや言語アシスタントを著しく上回り、これらの特定のタスクを実行するために訓練された専門家モデルと同等または優れたパフォーマンスを達成できることを示す。
さらにTEOChatは、変更検出および変更質問応答データセット上で印象的なゼロショットパフォーマンスを実現し、複数の時間的タスクにおいてGPT-4oとGemini 1.5 Proを上回っ、同等の単一EOイメージ命令フォローモデルよりも強力なシングルイメージ機能を示す。
データ、モデル、コードはhttps://github.com/ermongroup/TEOChat で公開しています。
関連論文リスト
- Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。
モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。
我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - OmChat: A Recipe to Train Multimodal Language Models with Strong Long Context and Video Understanding [34.17871202332497]
OmChatは、長いコンテキストとビデオ理解タスクをうまく扱うように設計されたモデルである。
ダイナミックな視覚符号化プロセスを使用して、様々な解像度の画像を効果的に処理し、さまざまな画質の細部をキャプチャする。
OmChatは、最大512Kのコンテキスト長をサポートすることで、複数の画像やビデオを含むタスクにおいて、有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-07-06T02:16:10Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Satellite Captioning: Large Language Models to Augment Labeling [0.0]
キャプションデータセットは、言語の違い、文法、そして人間がそれらを生成するのに要する時間により、はるかに難しい課題を示します。
現在のデータセットは確かに多くのインスタンスを扱えるが、キャプタがより限定的な語彙を持つ場合、問題となる。
本稿では,キャプションデータセットにおける潜在的な情報やコミュニケーションの欠陥の問題に対処することを目的とする。
論文 参考訳(メタデータ) (2023-12-18T03:21:58Z) - MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Image Difference Captioning with Pre-training and Contrastive Learning [45.59621065755761]
画像差分キャプション(IDC)タスクは、自然言語と類似した2つの画像の視覚的差異を記述することを目的としている。
このタスクの主な課題は、1)より強力な視覚と言語関連を学習する必要のある、きめ細かい視覚的差異、2)手動アノテーションのコストの2つの側面にある。
本稿では,これらの課題に対処するために,事前学習ファインタニングパラダイムに基づく新しいモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-09T06:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。