論文の概要: A Multi-Agent Feedback System for Detecting and Describing News Events in Satellite Imagery
- arxiv url: http://arxiv.org/abs/2604.12772v1
- Date: Tue, 14 Apr 2026 14:12:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.488308
- Title: A Multi-Agent Feedback System for Detecting and Describing News Events in Satellite Imagery
- Title(参考訳): 衛星画像におけるニュースイベントの検出と記述のためのマルチエージェントフィードバックシステム
- Authors: Madeline Anderson, Mikhail Klassen, Ash Hoover, Kerri Cahoy,
- Abstract要約: リモートセンシングには、複数の時間的なイベントキャプションデータセットがない。
本稿では,ニュース記事をジオコードし,対応する衛星画像列の字幕を合成する,反復型マルチエージェントワークフローSkyScraperを紹介する。
我々はこのフレームワークをグローバルニュース記事の大規模データベースに適用し、5000のシーケンスで新しい複数時間キャプションデータセットをキュレートする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Changes in satellite imagery often occur over multiple time steps. Despite the emergence of bi-temporal change captioning datasets, there is a lack of multi-temporal event captioning datasets (at least two images per sequence) in remote sensing. This gap exists because (1) searching for visible events in satellite imagery and (2) labeling multi-temporal sequences require significant time and labor. To address these challenges, we present SkyScraper, an iterative multi-agent workflow that geocodes news articles and synthesizes captions for corresponding satellite image sequences. Our experiments show that SkyScraper successfully finds 5x more events than traditional geocoding methods, demonstrating that agentic feedback is an effective strategy for surfacing new multi-temporal events in satellite imagery. We apply our framework to a large database of global news articles, curating a new multi-temporal captioning dataset with 5,000 sequences. By automatically identifying imagery related to news events, our work also supports journalism and reporting efforts.
- Abstract(参考訳): 衛星画像の変化は、しばしば複数の時間ステップで起こる。
双方向の時間的変化キャプションデータセットの出現にもかかわらず、リモートセンシングには複数の時間的イベントキャプションデータセット(少なくともシーケンス毎に2つの画像)が欠落している。
このギャップは、(1)衛星画像中の可視事象の探索、(2)複数時間シーケンスのラベル付けにはかなりの時間と労力を要するため存在する。
これらの課題に対処するため、SkyScraperは、ニュース記事をジオコードし、対応する衛星画像シーケンスのキャプションを合成する反復的マルチエージェントワークフローである。
実験の結果,SkyScraperは従来のジオコーディング手法よりも5倍のイベントを発見できた。
我々はこのフレームワークをグローバルニュース記事の大規模データベースに適用し、5000のシーケンスで新しい複数時間キャプションデータセットをキュレートする。
ニュースイベントに関連する画像を自動的に識別することで,ジャーナリズムや報道活動も支援する。
関連論文リスト
- GeoBridge: A Semantic-Anchored Multi-View Foundation Model Bridging Images and Text for Geo-Localization [36.20562550716618]
クロスビュージオローカライゼーションは、クエリ画像に視覚的に対応するジオタグ付き参照画像を取得することで位置を推測する。
従来の衛星中心のパラダイムは、高解像度または最新の衛星画像が利用できない場合にロバスト性を制限する。
ビュー間の双方向マッチングを行うモデルであるGeoBridgeを提案する。
論文 参考訳(メタデータ) (2025-12-02T12:28:22Z) - EVENT-Retriever: Event-Aware Multimodal Image Retrieval for Realistic Captions [11.853877966862086]
自由形キャプションからのイベントベースの画像検索は重要な課題である。
本稿では,高密度な記事検索,イベント認識言語モデルの再ランク付け,効率的な画像収集を併用した多段階検索フレームワークを提案する。
本システムは,EVENTA 2025 Grand Challengeにおけるトラック2のプライベートテストセットにおいて,トップ1のスコアを達成している。
論文 参考訳(メタデータ) (2025-08-31T09:03:25Z) - Semantic Neural Radiance Fields for Multi-Date Satellite Data [4.174845397893041]
本稿では,そのシーンの3次元意味表現を得ることのできる,衛星固有のニューラルレージアンスフィールド(NeRF)モデルを提案する。
このモデルは、対応する画素単位のセマンティックラベルを持つマルチ日付衛星画像の集合から出力を導出する。
時間的画像の不整合に対処するために意味情報を活用することで色予測を強化する。
論文 参考訳(メタデータ) (2025-02-24T09:26:48Z) - Towards a multimodal framework for remote sensing image change retrieval and captioning [3.3488510654648453]
本稿では,両時間RS画像ペアのための新しい基礎モデルを提案する。
コントラストエンコーダとキャプションデコーダを共同でトレーニングすることにより、両時間的変化検出の文脈でテキスト画像検索機能を付加する。
論文 参考訳(メタデータ) (2024-06-19T10:30:56Z) - GEOBIND: Binding Text, Image, and Audio through Satellite Images [7.291750095728984]
我々は、位置情報の衛星画像からテキスト、画像、音声など複数のモードを推測できるディープラーニングモデルGeoBindを提案する。
トレーニングの結果,衛星画像,地上画像,音声,テキストなど,複数の種類のデータを用いた共同埋め込み空間が得られた。
論文 参考訳(メタデータ) (2024-04-17T20:13:37Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - DiffusionSat: A Generative Foundation Model for Satellite Imagery [63.2807119794691]
現在、DiffusionSatは、現在利用可能な大規模な高解像度リモートセンシングデータセットのコレクションに基づいてトレーニングされている、最大の生成基盤モデルである。
提案手法は, リアルタイムなサンプルを作成し, 時間生成, マルチスペクトル入力の超解像, インペイントなどの複数の生成課題を解くのに利用できる。
論文 参考訳(メタデータ) (2023-12-06T16:53:17Z) - Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。
我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文 参考訳(メタデータ) (2022-07-18T14:18:13Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。