論文の概要: Text2Graph VPR: A Text-to-Graph Expert System for Explainable Place Recognition in Changing Environments
- arxiv url: http://arxiv.org/abs/2512.18613v1
- Date: Sun, 21 Dec 2025 06:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.421422
- Title: Text2Graph VPR: A Text-to-Graph Expert System for Explainable Place Recognition in Changing Environments
- Title(参考訳): Text2Graph VPR: 環境変化における説明可能な場所認識のためのテキスト・ツー・グラフエキスパートシステム
- Authors: Saeideh Yousefzadeh, Hamidreza Pourreza,
- Abstract要約: Text2Graph VPRは、画像シーケンスをテキストシーン記述に変換する。
シーングラフはオブジェクト、属性、ペア関係をキャプチャする。
厳格な外見変化下での頑健な検索を実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Place Recognition (VPR) in long-term deployment requires reasoning beyond pixel similarity: systems must make transparent, interpretable decisions that remain robust under lighting, weather and seasonal change. We present Text2Graph VPR, an explainable semantic localization system that converts image sequences into textual scene descriptions, parses those descriptions into structured scene graphs, and reasons over the resulting graphs to identify places. Scene graphs capture objects, attributes and pairwise relations; we aggregate per-frame graphs into a compact place representation and perform retrieval with a dual-similarity mechanism that fuses learned Graph Attention Network (GAT) embeddings and a Shortest-Path (SP) kernel for structural matching. This hybrid design enables both learned semantic matching and topology-aware comparison, and -- critically -- produces human-readable intermediate representations that support diagnostic analysis and improve transparency in the decision process. We validate the system on Oxford RobotCar and MSLS (Amman/San Francisco) benchmarks and demonstrate robust retrieval under severe appearance shifts, along with zero-shot operation using human textual queries. The results illustrate that semantic, graph-based reasoning is a viable and interpretable alternative for place recognition, particularly suited to safety-sensitive and resource-constrained settings.
- Abstract(参考訳): 長期展開における視覚的位置認識(VPR)は、ピクセルの類似性を超えた推論を必要とする。
画像シーケンスをテキストシーン記述に変換し、それらの記述を構造化されたシーングラフに解析する、説明可能なセマンティックローカライズシステムであるText2Graph VPRと、結果のグラフが場所を特定する理由について述べる。
Scene graphs capture objects, attribute and pairwise relations; we aggregates per-frame graphs into a compact place representation and performed search with a dual-similarity mechanism that fuses learned Graph Attention Network (GAT) embeddeddings and a Shortest-Path (SP) kernel for structure matching。
このハイブリッド設計は、学習されたセマンティックマッチングとトポロジ-アウェア比較の両方を可能にし、重要なことに、診断分析をサポートし、意思決定プロセスにおける透明性を向上させる人間可読な中間表現を生成する。
本システムはオックスフォード・ロボットカーとMSLS(Amman/San Francisco)のベンチマークで検証し,厳密な外観変化下での頑健な検索と,人間のテキストクエリを用いたゼロショット操作を実証した。
その結果、セマンティックなグラフベースの推論は、場所認識の現実的で解釈可能な代替手段であり、特に安全性に敏感でリソースに制約のある設定に適していることが示された。
関連論文リスト
- Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - SCENIR: Visual Semantic Clarity through Unsupervised Scene Graph Retrieval [1.51422963961219]
本稿では,グラフオートエンコーダに基づく教師なし検索フレームワークSCENIRを提案する。
提案モデルは,既存のビジョンベース,マルチモーダル,教師付きGNNアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-21T11:56:09Z) - Vision Graph Prompting via Semantic Low-Rank Decomposition [10.223578525761617]
Vision GNN (ViG) は、画像をグラフ構造として表現することで、優れた性能を示す。
下流タスクにViGを効率的に適応させるためには、視覚的プロンプトのようなパラメータ効率の良い微調整技術がますます不可欠になっている。
視覚グラフ構造に適した新しいフレームワークであるビジョングラフプロンプティング(VGP)を提案する。
論文 参考訳(メタデータ) (2025-05-07T04:29:29Z) - A Graph-Based Framework for Interpretable Whole Slide Image Analysis [86.37618055724441]
我々は,全スライディング画像を生物学的にインフォームドされたグラフ表現に変換するフレームワークを開発した。
我々のアプローチは、任意の格子ではなく、自然構造を尊重する組織領域からグラフノードを構築する。
がんのステージングと生存予測の課題に強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-14T20:15:04Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Closing the Loop: Graph Networks to Unify Semantic Objects and Visual
Features for Multi-object Scenes [2.236663830879273]
ループクロージャ検出(LCD)は、以前に訪れた場所を認識する際に、ドリフトを最小限に抑えるために必要である。
Visual Bag-of-Words (vBoW)は、多くの最先端SLAMシステムで選択されたLCDアルゴリズムである。
本稿では,セマンティックオブジェクトと視覚的特徴を共生的に統合する統合グラフ構造を構築するSymbioLCD2を提案する。
論文 参考訳(メタデータ) (2022-09-24T00:42:33Z) - Scene Graph Embeddings Using Relative Similarity Supervision [4.137464623395376]
グラフ畳み込みネットワークを用いて,シーングラフの構造を活用し,意味的画像検索に有用な画像埋め込みを生成する。
本稿では,類似画像と類似画像の対で動作し,それらの間の相対順序を埋め込み空間に課す新しい損失関数を提案する。
このランキング損失と直感的なトリプルサンプリング戦略が、検索タスクでよく知られたコントラスト損失を上回った堅牢な表現につながることを実証します。
論文 参考訳(メタデータ) (2021-04-06T09:13:05Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。