Fugu-MT 論文翻訳(概要): Vision-Language Models in Remote Sensing: Current Progress and Future Trends

論文の概要: Vision-Language Models in Remote Sensing: Current Progress and Future Trends

arxiv url: http://arxiv.org/abs/2305.05726v1
Date: Tue, 9 May 2023 19:17:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-11 15:33:11.843318
Title: Vision-Language Models in Remote Sensing: Current Progress and Future Trends
Title（参考訳）: リモートセンシングにおける視覚言語モデルの現状と将来動向
Authors: Congcong Wen, Yuan Hu, Xiang Li, Zhenghang Yuan, Xiao Xiang Zhu
Abstract要約: 視覚言語モデルは、画像とその関連するテキスト記述の推論を可能にし、基礎となるセマンティクスのより深い理解を可能にする。視覚言語モデルは、画像内のオブジェクトを認識するだけでなく、それら間の関係を推測したり、画像の自然言語記述を生成することもできる。本稿では,リモートセンシングにおける視覚言語モデルの研究を包括的にレビューする。
参考スコア（独自算出の注目度）: 19.179306993193023
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The remarkable achievements of ChatGPT and GPT-4 have sparked a wave of interest and research in the field of large language models for Artificial General Intelligence (AGI). These models provide us with intelligent solutions that are more similar to human thinking, enabling us to use general artificial intelligence to solve problems in various applications. However, in the field of remote sensing, the scientific literature on the implementation of AGI remains relatively scant. Existing AI-related research primarily focuses on visual understanding tasks while neglecting the semantic understanding of the objects and their relationships. This is where vision-language models excel, as they enable reasoning about images and their associated textual descriptions, allowing for a deeper understanding of the underlying semantics. Vision-language models can go beyond recognizing the objects in an image and can infer the relationships between them, as well as generate natural language descriptions of the image. This makes them better suited for tasks that require both visual and textual understanding, such as image captioning, text-based image retrieval, and visual question answering. This paper provides a comprehensive review of the research on vision-language models in remote sensing, summarizing the latest progress, highlighting the current challenges, and identifying potential research opportunities. Specifically, we review the application of vision-language models in several mainstream remote sensing tasks, including image captioning, text-based image generation, text-based image retrieval, visual question answering, scene classification, semantic segmentation, and object detection. For each task, we briefly describe the task background and review some representative works. Finally, we summarize the limitations of existing work and provide some possible directions for future development.
Abstract（参考訳）: ChatGPTとGPT-4の顕著な成果は、人工知能(AGI)の大規模言語モデル分野における関心と研究の波を引き起こしている。これらのモデルにより、人間の思考に近いインテリジェントなソリューションが提供され、汎用人工知能を使って様々なアプリケーションの問題を解決することができます。しかし、リモートセンシングの分野では、AGIの実施に関する科学的文献は比較的少ないままである。既存のAI関連の研究は、主に視覚的理解タスクに焦点を当て、オブジェクトとその関係のセマンティック理解を無視している。ここで視覚言語モデルは、画像とその関連するテキスト記述の推論を可能にし、基礎となるセマンティクスのより深い理解を可能にする。視覚言語モデルは、画像内のオブジェクトを認識するだけでなく、それらの関係を推測したり、画像の自然言語記述を生成することもできる。これにより、画像キャプション、テキストベースの画像検索、視覚的な質問応答など、視覚とテキストの理解を必要とするタスクに適している。本稿では,リモートセンシングにおける視覚言語モデル研究の包括的レビューを行い,最近の進歩を要約するとともに,現在の課題を浮き彫りにして,潜在的な研究機会を特定する。具体的には,画像キャプション,テキストベース画像生成,テキストベース画像検索,視覚的質問応答,シーン分類,意味セグメンテーション,オブジェクト検出など,複数のリモートセンシングタスクにおける視覚言語モデルの適用について検討する。各タスクについて、タスクのバックグラウンドを簡単に説明し、いくつかの代表的作業をレビューします。最後に,既存の作業の限界を要約し,今後の開発の方向性について述べる。

関連論文リスト

Natural Language Generation from Visual Sequences: Challenges and Future Directions [8.058451580903123]
複数の画像やフレームの時間的に順序付けられたシーケンスを扱うタスクは、より広範な、より一般的な問題の一例である、と我々は主張する。マルチイメージ・テキスト生成の様々な側面と段階からの洞察に基づいて、いくつかのオープンな疑問を強調し、今後の研究方向性を提案する。
論文参考訳（メタデータ） (2025-02-18T16:48:18Z)
ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers [1.6541870997607049]
変換器の高度な特徴抽出機能を備えた大規模言語モデルの非並列的文脈理解を融合したアーキテクチャであるARPAを提案する。 ARPAの導入は、視覚的単語の曖昧さにおいて重要なマイルストーンであり、魅力的なソリューションを提供する。我々は研究者や実践者たちに、このようなハイブリッドモデルが人工知能の先例のない進歩を後押しする未来を想像して、我々のモデルの能力を探求するよう依頼する。
論文参考訳（メタデータ） (2024-08-12T10:15:13Z)
Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。我々は、競合する言語と視覚言語モデルを総合的に評価する。文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文参考訳（メタデータ） (2024-06-21T03:53:37Z)
Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文参考訳（メタデータ） (2024-03-21T17:58:56Z)
Trends, Applications, and Challenges in Human Attention Modelling [65.61554471033844]
人間の注意モデリングは視覚探索の基礎となる認知過程を理解するのに特に有用であることが証明されている。画像やビデオ処理、視覚・言語アプリケーション、言語モデリングなど、さまざまな領域の問題を解決することを目的とした人工知能モデルのサポートを提供する。
論文参考訳（メタデータ） (2024-02-28T19:35:30Z)
Vision-Language Navigation with Embodied Intelligence: A Survey [19.049590467248255]
視覚言語ナビゲーション(VLN)は、インテリジェンスを実現するための重要な研究経路である。 VLNは人工知能、自然言語処理、コンピュータビジョン、ロボット工学を統合している。本調査は,VLN研究の進捗を体系的にレビューし,VLN研究の方向性を具体的知性で詳述する。
論文参考訳（メタデータ） (2024-02-22T05:45:17Z)
Analyzing the Roles of Language and Vision in Learning from Limited Data [31.895396236504993]
我々は、言語とビジョンが世界について学ぶために与える貢献について研究する。すべてのコンポーネントを活用する言語モデルがビジョンランゲージモデルの性能の大部分を回復することがわかった。
論文参考訳（メタデータ） (2024-02-15T22:19:41Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
DesCo: Learning Object Recognition with Rich Language Descriptions [93.8177229428617]
視覚言語アプローチの最近の発展は、言語指導から視覚認識モデルを学習するパラダイムシフトを引き起こしている。本稿では,リッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。
論文参考訳（メタデータ） (2023-06-24T21:05:02Z)
Visually-Situated Natural Language Understanding with Contrastive Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文参考訳（メタデータ） (2023-05-24T11:59:13Z)
Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文参考訳（メタデータ） (2022-10-18T17:01:35Z)
From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。画像キャプションの研究はまだ結論に達していない。本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文参考訳（メタデータ） (2021-07-14T18:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。