論文の概要: Neurosymbolic Inference On Foundation Models For Remote Sensing Text-to-image Retrieval With Complex Queries
- arxiv url: http://arxiv.org/abs/2512.14102v1
- Date: Tue, 16 Dec 2025 05:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.603902
- Title: Neurosymbolic Inference On Foundation Models For Remote Sensing Text-to-image Retrieval With Complex Queries
- Title(参考訳): 複雑クエリを用いたリモートセンシングテキスト画像検索のための基礎モデルに関するニューロシンボリック推論
- Authors: Emanuele Mezzi, Gertjan Burghouts, Maarten Kruithof,
- Abstract要約: RUNE(Reasoning Using Neurosymbolic Entities)は、大言語モデル(LLM)とニューロシンボリックAIを組み合わせて画像を取得するアプローチである。
暗黙の結合埋め込みに依存するRS-LVLMとは異なり、RUNEは明示的な推論を行い、性能と解釈可能性を高める。
衛星画像検索におけるRUNEの現実的応用の可能性を示す。
- 参考スコア(独自算出の注目度): 0.12744523252873352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image retrieval in remote sensing (RS) has advanced rapidly with the rise of large vision-language models (LVLMs) tailored for aerial and satellite imagery, culminating in remote sensing large vision-language models (RS-LVLMS). However, limited explainability and poor handling of complex spatial relations remain key challenges for real-world use. To address these issues, we introduce RUNE (Reasoning Using Neurosymbolic Entities), an approach that combines Large Language Models (LLMs) with neurosymbolic AI to retrieve images by reasoning over the compatibility between detected entities and First-Order Logic (FOL) expressions derived from text queries. Unlike RS-LVLMs that rely on implicit joint embeddings, RUNE performs explicit reasoning, enhancing performance and interpretability. For scalability, we propose a logic decomposition strategy that operates on conditioned subsets of detected entities, guaranteeing shorter execution time compared to neural approaches. Rather than using foundation models for end-to-end retrieval, we leverage them only to generate FOL expressions, delegating reasoning to a neurosymbolic inference module. For evaluation we repurpose the DOTA dataset, originally designed for object detection, by augmenting it with more complex queries than in existing benchmarks. We show the LLM's effectiveness in text-to-logic translation and compare RUNE with state-of-the-art RS-LVLMs, demonstrating superior performance. We introduce two metrics, Retrieval Robustness to Query Complexity (RRQC) and Retrieval Robustness to Image Uncertainty (RRIU), which evaluate performance relative to query complexity and image uncertainty. RUNE outperforms joint-embedding models in complex RS retrieval tasks, offering gains in performance, robustness, and explainability. We show RUNE's potential for real-world RS applications through a use case on post-flood satellite image retrieval.
- Abstract(参考訳): リモートセンシング(RS)におけるテキスト・ツー・イメージ検索は、空中・衛星画像に適した大型視覚言語モデル(LVLM)の台頭とともに急速に進歩し、リモートセンシング大型視覚言語モデル(RS-LVLMS)が誕生した。
しかし、複雑な空間関係の限定的な説明可能性や扱いの貧弱さは、実世界の利用にとって重要な課題である。
これらの問題に対処するために,大言語モデル(LLM)とニューロシンボリックAIを組み合わせたRUNE(Reasoning Using Neurosymbolic Entities)を導入する。
暗黙の結合埋め込みに依存するRS-LVLMとは異なり、RUNEは明示的な推論を行い、性能と解釈可能性を高める。
拡張性のために,検出されたエンティティの条件付きサブセットで動作する論理分解戦略を提案し,ニューラルアプローチと比較して実行時間が短いことを保証した。
エンド・ツー・エンドの検索に基礎モデルを使用するのではなく、FOL表現の生成にのみ活用し、ニューロシンボリック推論モジュールに推論を委譲する。
評価のために、既存のベンチマークよりも複雑なクエリで拡張することで、もともとオブジェクト検出用に設計されたDOTAデータセットを再使用します。
テキストから論理への翻訳におけるLLMの有効性を示し、RUNEと最先端のRS-LVLMを比較し、優れた性能を示す。
本稿では,Retrieval Robustness to Query Complexity (RRQC)とRetrieval Robustness to Image Uncertainty (RRIU)の2つの指標を紹介する。
RUNEは複雑なRS検索タスクにおいて共同埋め込みモデルより優れており、性能、堅牢性、説明可能性の向上を提供する。
衛星画像検索におけるRUNEの現実的応用の可能性を示す。
関連論文リスト
- KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering [64.62317305868264]
テキスト模倣から強化学習によるインタラクション最適化へパラダイムをシフトするフレームワークである textbfKBQA-R1 を提案する。
KBQAを多ターン決定プロセスとして扱うことで,行動のリストを用いて知識ベースをナビゲートすることを学ぶ。
WebQSP、GrailQA、GraphQuestionsの実験では、KBQA-R1が最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-10T17:45:42Z) - Co-Training Vision Language Models for Remote Sensing Multi-task Learning [68.15604397741753]
視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。
本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。
本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
論文 参考訳(メタデータ) (2025-11-26T10:55:07Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems [6.762635083456022]
RAGに基づくシステムにおいて,エンティティコアが文書検索と生成性能にどのように影響するかを検討する。
コア参照の解決により検索効率が向上し,質問応答性能(QA)が向上することが実証された。
本研究の目的は、知識集約型AIアプリケーションにおける検索と生成を改善するためのガイダンスを提供することである。
論文 参考訳(メタデータ) (2025-07-10T15:26:59Z) - Sparse Interpretable Deep Learning with LIES Networks for Symbolic Regression [22.345828337550575]
記号回帰は、データを正確に記述する閉形式の数学的表現を発見することを目的としている。
既存のSR手法は、しばしば人口に基づく探索や自己回帰モデリングに依存している。
LIES(Logarithm, Identity, Exponential, Sine)は,シンボル表現のモデル化に最適化された,解釈可能なプリミティブアクティベーションを備えたニューラルネットワークアーキテクチャである。
論文 参考訳(メタデータ) (2025-06-09T22:05:53Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - ICF-SRSR: Invertible scale-Conditional Function for Self-Supervised
Real-world Single Image Super-Resolution [60.90817228730133]
単一画像超解像(SISR)は、与えられた低解像度(LR)画像を高解像度(HR)にアップサンプリングすることを目的とした課題である。
近年のアプローチは、単純化されたダウンサンプリング演算子によって劣化したシミュレーションLR画像に基づいて訓練されている。
Invertible Scale-Conditional Function (ICF) を提案する。これは入力画像をスケールし、異なるスケール条件で元の入力を復元する。
論文 参考訳(メタデータ) (2023-07-24T12:42:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。