論文の概要: Transformer-based Spatial Grounding: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2507.12739v1
- Date: Thu, 17 Jul 2025 02:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.32297
- Title: Transformer-based Spatial Grounding: A Comprehensive Survey
- Title(参考訳): 変圧器を用いた空間接地:包括的調査
- Authors: Ijazul Haq, Muhammad Saqib, Yingjie Zhang,
- Abstract要約: 本稿では,2018年から2025年にかけての変圧器を用いた空間接地手法について,系統的な文献レビューを行った。
我々の分析では、支配的なモデルアーキテクチャ、一般的なデータセット、広く採用されている評価指標を識別する。
この研究は、研究者や実践者にとって不可欠な洞察と構造化されたガイダンスを提供し、堅牢で信頼性があり、業界対応のモデルの開発を促進する。
- 参考スコア(独自算出の注目度): 3.309903719647421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial grounding, the process of associating natural language expressions with corresponding image regions, has rapidly advanced due to the introduction of transformer-based models, significantly enhancing multimodal representation and cross-modal alignment. Despite this progress, the field lacks a comprehensive synthesis of current methodologies, dataset usage, evaluation metrics, and industrial applicability. This paper presents a systematic literature review of transformer-based spatial grounding approaches from 2018 to 2025. Our analysis identifies dominant model architectures, prevalent datasets, and widely adopted evaluation metrics, alongside highlighting key methodological trends and best practices. This study provides essential insights and structured guidance for researchers and practitioners, facilitating the development of robust, reliable, and industry-ready transformer-based spatial grounding models.
- Abstract(参考訳): 自然言語表現と対応する画像領域を関連づける空間接地は,トランスフォーマーモデルの導入により急速に進歩し,マルチモーダル表現とクロスモーダルアライメントが著しく向上した。
この進歩にもかかわらず、この分野は現在の方法論、データセットの使用状況、評価指標、産業応用可能性の包括的な合成を欠いている。
本稿では,2018年から2025年にかけての変圧器を用いた空間接地手法について,系統的な文献レビューを行った。
我々の分析では、主要な方法論的傾向とベストプラクティスを強調するとともに、支配的なモデルアーキテクチャ、一般的なデータセット、広く採用されている評価指標を特定します。
この研究は、研究者や実践者にとって不可欠な洞察と構造化されたガイダンスを提供し、堅牢で信頼性があり、業界対応のトランスフォーマーベースの空間接地モデルの開発を促進する。
関連論文リスト
- Foundation Models and Transformers for Anomaly Detection: A Survey [2.3264194695971656]
調査では、VADメソッドを再構築ベース、機能ベース、ゼロ/フェーショットアプローチに分類した。
トランスフォーマーとファンデーションモデルは、より堅牢で、解釈可能で、スケーラブルな異常検出ソリューションを可能にする。
論文 参考訳(メタデータ) (2025-07-21T12:01:04Z) - A Sensor Agnostic Domain Generalization Framework for Leveraging Geospatial Foundation Models: Enhancing Semantic Segmentation viaSynergistic Pseudo-Labeling and Generative Learning [5.299218284699214]
高性能セグメンテーションモデルは、センサ、照明、地理のアノテーション不足と可変性によって挑戦されている。
本稿では,ソフトアライメント擬似ラベルとソース・ツー・ターゲット生成事前学習を組み合わせることで,新しい地理空間基盤モデルを活用するための領域一般化手法を提案する。
ハイパースペクトルおよびマルチスペクトルリモートセンシングデータセットを用いた実験により、適応性とセグメンテーションを向上させる方法の有効性が確認された。
論文 参考訳(メタデータ) (2025-05-02T19:52:02Z) - A Concise Survey on Lane Topology Reasoning for HD Mapping [30.73664953504888]
レーントポロジ推論技術はハイデフィニション(HD)マッピングや自律運転アプリケーションにおいて重要な役割を担っている。
近年、この分野で重要な進歩が見られたが、これらを包括的にまとめる努力は限られている。
本研究は,レーントポロジー推論手法の進化と現状を体系的にレビューする。
論文 参考訳(メタデータ) (2025-03-31T11:30:40Z) - A Survey of Model Architectures in Information Retrieval [64.75808744228067]
機能抽出のためのバックボーンモデルと、関連性推定のためのエンドツーエンドシステムアーキテクチャの2つの重要な側面に焦点を当てる。
従来の用語ベースの手法から現代のニューラルアプローチまで,特にトランスフォーマーベースのモデルとそれに続く大規模言語モデル(LLM)の影響が注目されている。
我々は、パフォーマンスとスケーラビリティのアーキテクチャ最適化、マルチモーダル、マルチランガルデータの処理、従来の検索パラダイムを超えた新しいアプリケーションドメインへの適応など、新たな課題と今後の方向性について議論することで結論付けた。
論文 参考訳(メタデータ) (2025-02-20T18:42:58Z) - Trajectory World Models for Heterogeneous Environments [67.27233466954814]
環境を横断するセンサーやアクチュエータの不均一性は、大規模な事前訓練された世界モデルを構築する上で大きな課題となる。
我々は80の環境から100万以上のトラジェクトリからなる統一データセットUniTrajを紹介した。
また,様々なセンサやアクチュエータ情報を扱える新しいアーキテクチャであるTrajWorldを提案する。
論文 参考訳(メタデータ) (2025-02-03T13:59:08Z) - Quantifying the synthetic and real domain gap in aerial scene understanding [1.696456370910212]
本稿では,MMCM(Multi-Model Consensus Metric)と深度に基づく構造指標を用いたシーン複雑性評価手法を提案する。
実世界(Dronescapes)と合成(Skyscenes)のデータセットを用いて、実世界のシーンは一般的に最先端のビジョントランスフォーマーの間で高いコンセンサスを示すことを示す。
結果は、固有複雑さとドメインギャップを下記し、シミュレーション忠実度の向上とモデル一般化の必要性を強調した。
論文 参考訳(メタデータ) (2024-11-29T18:18:26Z) - A Data-Driven Review of Remote Sensing-Based Data Fusion in Precision Agriculture from Foundational to Transformer-Based Techniques [6.184871136700834]
このレビューは、AI駆動のデータ融合技術による精密農業の進歩に関する貴重な洞察を提供する。
我々は1994年から2024年までの研究動向を分析し、データ融合、リモートセンシング、AIによる農業モニタリングにおける重要な展開を特定した。
論文 参考訳(メタデータ) (2024-10-24T01:26:21Z) - Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。
このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文 参考訳(メタデータ) (2023-06-06T16:16:05Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。