論文の概要: Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2509.21976v1
- Date: Fri, 26 Sep 2025 07:01:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.253256
- Title: Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning
- Title(参考訳): Geo-R1:Reinforcement Fine-TuningによるFew-Shot Geospatial Referring Expression理解の改善
- Authors: Zilun Zhang, Zian Guan, Tiancheng Zhao, Haozhan Shen, Tianyu Li, Yuxiang Cai, Zhonggen Su, Zhaojun Liu, Jianwei Yin, Xiang Li,
- Abstract要約: リモートセンシングにおける表現理解の参照は、ユニークな課題である。
数ショットの地理空間参照のための推論中心強化微調整(RFT)パラダイムであるGeo-R1を提案する。
我々はGeo-R1を慎重に設計した3つの地理空間参照ベンチマークで検証する。
- 参考スコア(独自算出の注目度): 37.90271368636318
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Referring expression understanding in remote sensing poses unique challenges, as it requires reasoning over complex object-context relationships. While supervised fine-tuning (SFT) on multimodal large language models achieves strong performance with massive labeled datasets, they struggle in data-scarce scenarios, leading to poor generalization. To address this limitation, we propose Geo-R1, a reasoning-centric reinforcement fine-tuning (RFT) paradigm for few-shot geospatial referring. Geo-R1 enforces the model to first generate explicit, interpretable reasoning chains that decompose referring expressions, and then leverage these rationales to localize target objects. This "reason first, then act" process enables the model to make more effective use of limited annotations, enhances generalization, and provides interpretability. We validate Geo-R1 on three carefully designed few-shot geospatial referring benchmarks, where our model consistently and substantially outperforms SFT baselines. It also demonstrates strong cross-dataset generalization, highlighting its robustness. Code and data will be released at http://geo-r1.github.io.
- Abstract(参考訳): リモートセンシングにおける表現理解の参照は、複雑なオブジェクト-コンテキスト関係の推論を必要とするため、ユニークな課題となる。
マルチモーダルな大規模言語モデル上での教師付き微調整(SFT)は、大量のラベル付きデータセットで強力なパフォーマンスを達成するが、データスカースシナリオに苦しむため、一般化は不十分である。
この制限に対処するために,数ショットの地理空間参照のための推論中心強化微調整(RFT)パラダイムであるGeo-R1を提案する。
Geo-R1はまず、参照表現を分解する明示的で解釈可能な推論チェーンを生成し、その後、これらの論理を利用してターゲットオブジェクトをローカライズする。
この「理性第一、次に行動」プロセスは、限定アノテーションをより効果的に利用し、一般化を高め、解釈可能性を提供する。
我々はGeo-R1を慎重に設計した3つの地理空間参照ベンチマークで検証する。
また、強力なクロスデータセットの一般化を示し、その堅牢性を強調している。
コードとデータはhttp://geo-r1.github.ioで公開される。
関連論文リスト
- Towards Faithful Reasoning in Remote Sensing: A Perceptually-Grounded GeoSpatial Chain-of-Thought for Vision-Language Models [8.021952962029165]
リモートセンシングにおける視覚言語モデル(VLM)は、複雑な分析タスクで失敗することが多い。
我々は、知覚的に周囲の地理空間的連鎖(Geo-CoT)を紹介する。
Geo-CoTは、リモートセンシング分析を検証可能なマルチステッププロセスとしてモデル化するフレームワークである。
論文 参考訳(メタデータ) (2025-09-26T11:34:42Z) - GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions [45.70578816057097]
本稿では,幾何学的問題に対するReferring Expression (REC) の課題を紹介する。
RECは、テキストのプロンプトに応じて図形の点、形、空間関係をローカライズできるかどうかを評価する。
構造化幾何形式言語を用いた大規模合成学習データセットを生成する。
論文 参考訳(メタデータ) (2025-09-25T12:00:52Z) - GeoSR: Cognitive-Agentic Framework for Probing Geospatial Knowledge Boundaries via Iterative Self-Refinement [4.026524042818433]
GeoSRは自己修正型のエージェント推論フレームワークで、コア地理的原則を反復予測ループに組み込む。
物理世界特性推定から社会経済予測に至るまでのタスクにおけるGeoSRの検証を行う。
論文 参考訳(メタデータ) (2025-08-06T04:45:34Z) - TrustGeoGen: Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving [106.04001249574786]
TrustGeoGenは、標準的で信頼性の高いベンチマークを確立するために、正式に検証された幾何問題を生成するデータエンジンである。
1)ダイアグラム,テキスト,ステップバイステップのソリューションの生成を同期するマルチモーダルアライメント,2)すべての推論パスがルール準拠であることを保証する形式検証,3)接続思考,ブリッジング,ヒューマンライクな論理ステップとの論理的推論,4)複数のソリューションと自己回帰バックトラックを備えた多種多様な問題を生成できるTextitGeoExploreシリーズアルゴリズム。
論文 参考訳(メタデータ) (2025-04-22T10:45:23Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。
我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。
SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-04-13T16:36:47Z) - GeoAggregator: An Efficient Transformer Model for Geo-Spatial Tabular Data [5.40483645224129]
本稿では地理空間データモデリングのための効率的かつ軽量なアルゴリズムGeoAggregatorを紹介する。
我々は、空間統計モデル、XGBoost、およびいくつかの最先端地理空間深層学習法と比較した。
その結果、GeoAggregatorsは、ほぼすべてのデータセットで競合相手と比較して、ベストまたはセカンドベストのパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-02-20T20:39:15Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。