論文の概要: Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2509.21976v1
- Date: Fri, 26 Sep 2025 07:01:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.253256
- Title: Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning
- Title(参考訳): Geo-R1:Reinforcement Fine-TuningによるFew-Shot Geospatial Referring Expression理解の改善
- Authors: Zilun Zhang, Zian Guan, Tiancheng Zhao, Haozhan Shen, Tianyu Li, Yuxiang Cai, Zhonggen Su, Zhaojun Liu, Jianwei Yin, Xiang Li,
- Abstract要約: リモートセンシングにおける表現理解の参照は、ユニークな課題である。
数ショットの地理空間参照のための推論中心強化微調整(RFT)パラダイムであるGeo-R1を提案する。
我々はGeo-R1を慎重に設計した3つの地理空間参照ベンチマークで検証する。
- 参考スコア(独自算出の注目度): 37.90271368636318
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Referring expression understanding in remote sensing poses unique challenges, as it requires reasoning over complex object-context relationships. While supervised fine-tuning (SFT) on multimodal large language models achieves strong performance with massive labeled datasets, they struggle in data-scarce scenarios, leading to poor generalization. To address this limitation, we propose Geo-R1, a reasoning-centric reinforcement fine-tuning (RFT) paradigm for few-shot geospatial referring. Geo-R1 enforces the model to first generate explicit, interpretable reasoning chains that decompose referring expressions, and then leverage these rationales to localize target objects. This "reason first, then act" process enables the model to make more effective use of limited annotations, enhances generalization, and provides interpretability. We validate Geo-R1 on three carefully designed few-shot geospatial referring benchmarks, where our model consistently and substantially outperforms SFT baselines. It also demonstrates strong cross-dataset generalization, highlighting its robustness. Code and data will be released at http://geo-r1.github.io.
- Abstract(参考訳): リモートセンシングにおける表現理解の参照は、複雑なオブジェクト-コンテキスト関係の推論を必要とするため、ユニークな課題となる。
マルチモーダルな大規模言語モデル上での教師付き微調整(SFT)は、大量のラベル付きデータセットで強力なパフォーマンスを達成するが、データスカースシナリオに苦しむため、一般化は不十分である。
この制限に対処するために,数ショットの地理空間参照のための推論中心強化微調整(RFT)パラダイムであるGeo-R1を提案する。
Geo-R1はまず、参照表現を分解する明示的で解釈可能な推論チェーンを生成し、その後、これらの論理を利用してターゲットオブジェクトをローカライズする。
この「理性第一、次に行動」プロセスは、限定アノテーションをより効果的に利用し、一般化を高め、解釈可能性を提供する。
我々はGeo-R1を慎重に設計した3つの地理空間参照ベンチマークで検証する。
また、強力なクロスデータセットの一般化を示し、その堅牢性を強調している。
コードとデータはhttp://geo-r1.github.ioで公開される。
関連論文リスト
- GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery [12.65874706732698]
推論駆動型リモートセンシングセグメンテーションの監視ボトルネックを回避し,ゼロショットでトレーニング不要なフレームワークであるGeoSegを提案する。
GeoSegは、(i)系統的な接地シフトを補正するためのバイアス対応座標補正、(ii)細粒な空間的手がかりで意味的意図を融合するための二重ルートプロンプト機構を通じて、正確な局所化を伴うMLLM推論を結合する。
実験の結果、GeoSegはすべてのベースラインを一貫して上回り、各コンポーネントの有効性と必要性を検証している。
論文 参考訳(メタデータ) (2026-03-04T12:24:16Z) - Enhancing Geometric Perception in VLMs via Translator-Guided Reinforcement Learning [52.075928878249066]
視覚誘導モデル(VLM)は、基本的な図形要素の認識が限られているため、幾何学的推論に苦しむことが多い。
ドメイン固有の言語表現と組み合わせたダイアグラムインスタンスからなるベンチマークであるGeoPerceiveを紹介する。
翻訳者強化学習フレームワークGeoDPOを提案する。
論文 参考訳(メタデータ) (2026-02-26T07:28:04Z) - RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - SegEarth-R2: Towards Comprehensive Language-guided Segmentation for Remote Sensing Images [49.52402091341301]
現在のモデルは単純な単一ターゲットのコマンドを解析できるが、複雑な地理空間シナリオで表されると失敗する。
総合的なトレーニングと評価のために構築された最初の大規模データセットであるLaSeRSを紹介する。
また,SegEarth-R2 は RS における包括的言語誘導セグメンテーションのために設計されたMLLM アーキテクチャである。
論文 参考訳(メタデータ) (2025-12-23T03:10:17Z) - GeoDiT: A Diffusion-based Vision-Language Model for Geospatial Understanding [14.436063587920005]
地理空間領域に適した初めての拡散型視覚言語モデルであるGeoDiTを紹介する。
画像キャプション、視覚的接地、多物体検出において大きな進歩を遂げる。
本研究は, 複雑な地理空間解析において, 生成過程とデータ固有の構造との整合性が, 優れた性能の鍵となることを検証する。
論文 参考訳(メタデータ) (2025-12-02T07:59:46Z) - UniGeoSeg: Towards Unified Open-World Segmentation for Geospatial Scenes [18.631940492768898]
リモートセンシング命令駆動セグメンテーションのための最初の100万スケールデータセットであるGeoSeg-1Mを紹介する。
GeoSeg-1Mには590Kの画像、117のカテゴリ、1.1Mのイメージマスク命令三つ子が含まれている。
また,タスク認識型テキスト強調,潜時知識記憶,プログレッシブトレーニング戦略を取り入れた統合フレームワークUniGeoSegを提案する。
論文 参考訳(メタデータ) (2025-11-28T16:40:08Z) - GeoZero: Incentivizing Reasoning from Scratch on Geospatial Scenes [84.52881742231152]
マルチモーダル大規模言語モデル (MLLM) は地理空間的シーン理解の進展において急速な発展を遂げている。
近年、リモートセンシングMLLMの推論能力の向上が試みられ、典型的には、精巧にキュレートされたチェーン・オブ・シント(CoT)データによるコールドスタートトレーニングによって実現されている。
MLLMが事前に定義されたCoTの監督なしに地理空間推論を行うことを可能にするフレームワークであるGeoZeroを提案する。
論文 参考訳(メタデータ) (2025-11-27T17:28:09Z) - Geo-R1: Unlocking VLM Geospatial Reasoning with Cross-View Reinforcement Learning [26.869573782008217]
視覚言語モデルにおける地理空間的推論を解き放つ推論中心のポストトレーニングフレームワークであるGeo-R1を紹介する。
足場形成の段階では、Geo-R1は、シンセサイザーチェーン・オブ・シンセサイザー(synthetic chain-of-thinkt exemplars)の教師付き微調整を通じて、地理空間的思考パラダイムを注入する。
昇降段階では、弱い教師付きクロスビューペアリングプロキシ上でGRPOベースの強化学習を使用する。
論文 参考訳(メタデータ) (2025-09-29T21:34:55Z) - Towards Faithful Reasoning in Remote Sensing: A Perceptually-Grounded GeoSpatial Chain-of-Thought for Vision-Language Models [8.021952962029165]
リモートセンシングにおける視覚言語モデル(VLM)は、複雑な分析タスクで失敗することが多い。
我々は、知覚的に周囲の地理空間的連鎖(Geo-CoT)を紹介する。
Geo-CoTは、リモートセンシング分析を検証可能なマルチステッププロセスとしてモデル化するフレームワークである。
論文 参考訳(メタデータ) (2025-09-26T11:34:42Z) - GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions [45.70578816057097]
本稿では,幾何学的問題に対するReferring Expression (REC) の課題を紹介する。
RECは、テキストのプロンプトに応じて図形の点、形、空間関係をローカライズできるかどうかを評価する。
構造化幾何形式言語を用いた大規模合成学習データセットを生成する。
論文 参考訳(メタデータ) (2025-09-25T12:00:52Z) - GeoSR: Cognitive-Agentic Framework for Probing Geospatial Knowledge Boundaries via Iterative Self-Refinement [4.026524042818433]
GeoSRは自己修正型のエージェント推論フレームワークで、コア地理的原則を反復予測ループに組み込む。
物理世界特性推定から社会経済予測に至るまでのタスクにおけるGeoSRの検証を行う。
論文 参考訳(メタデータ) (2025-08-06T04:45:34Z) - TrustGeoGen: Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving [106.04001249574786]
TrustGeoGenは、標準的で信頼性の高いベンチマークを確立するために、正式に検証された幾何問題を生成するデータエンジンである。
1)ダイアグラム,テキスト,ステップバイステップのソリューションの生成を同期するマルチモーダルアライメント,2)すべての推論パスがルール準拠であることを保証する形式検証,3)接続思考,ブリッジング,ヒューマンライクな論理ステップとの論理的推論,4)複数のソリューションと自己回帰バックトラックを備えた多種多様な問題を生成できるTextitGeoExploreシリーズアルゴリズム。
論文 参考訳(メタデータ) (2025-04-22T10:45:23Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。
我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。
SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-04-13T16:36:47Z) - GeoAggregator: An Efficient Transformer Model for Geo-Spatial Tabular Data [5.40483645224129]
本稿では地理空間データモデリングのための効率的かつ軽量なアルゴリズムGeoAggregatorを紹介する。
我々は、空間統計モデル、XGBoost、およびいくつかの最先端地理空間深層学習法と比較した。
その結果、GeoAggregatorsは、ほぼすべてのデータセットで競合相手と比較して、ベストまたはセカンドベストのパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-02-20T20:39:15Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。