Fugu-MT 論文翻訳(概要): Pushing the Limits of Vision-Language Models in Remote Sensing without Human Annotations

論文の概要: Pushing the Limits of Vision-Language Models in Remote Sensing without Human Annotations

arxiv url: http://arxiv.org/abs/2409.07048v1
Date: Wed, 11 Sep 2024 06:36:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 15:26:28.964660
Title: Pushing the Limits of Vision-Language Models in Remote Sensing without Human Annotations
Title（参考訳）: 人間アノテーションを伴わないリモートセンシングにおける視覚言語モデルの限界を押し上げる
Authors: Keumgang Cha, Donggeun Yu, Junghoon Seo,
Abstract要約: 本研究では、画像復号化機械学習モデルを用いて、視覚言語データセットをキュレートする手法を提案する。約960万の視覚言語対のデータセットをVHR画像で収集しました。結果として得られたモデルは、公開可能なビジョン言語データセットを活用できないものよりも優れていた。
参考スコア（独自算出の注目度）: 5.065947993017157
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The prominence of generalized foundation models in vision-language integration has witnessed a surge, given their multifarious applications. Within the natural domain, the procurement of vision-language datasets to construct these foundation models is facilitated by their abundant availability and the ease of web crawling. Conversely, in the remote sensing domain, although vision-language datasets exist, their volume is suboptimal for constructing robust foundation models. This study introduces an approach to curate vision-language datasets by employing an image decoding machine learning model, negating the need for human-annotated labels. Utilizing this methodology, we amassed approximately 9.6 million vision-language paired datasets in VHR imagery. The resultant model outperformed counterparts that did not leverage publicly available vision-language datasets, particularly in downstream tasks such as zero-shot classification, semantic localization, and image-text retrieval. Moreover, in tasks exclusively employing vision encoders, such as linear probing and k-NN classification, our model demonstrated superior efficacy compared to those relying on domain-specific vision-language datasets.
Abstract（参考訳）: 視覚言語統合における一般化された基礎モデルの優位性は、その多義的な応用を考えると、急激な増加を目撃している。自然領域内では、これらの基盤モデルを構築するためのビジョン言語データセットの調達が、その豊富な可用性とWebクローリングの容易さによって促進される。逆に、リモートセンシング領域では、視覚言語データセットが存在するが、そのボリュームは堅牢な基礎モデルを構築するのに最適である。本研究では、画像復号化機械学習モデルを用いて、人間の注釈付きラベルの必要性を否定し、視覚言語データセットをキュレートするアプローチを提案する。この手法を用いて、約960万の視覚言語対のデータセットをVHR画像で収集した。結果として得られたモデルでは、特にゼロショット分類、セマンティックローカライゼーション、画像テキスト検索といった下流タスクにおいて、公開可能なビジョン言語データセットを活用できなかったものよりも優れていた。さらに,線形探索やk-NN分類などの視覚エンコーダを専用に用いたタスクでは,ドメイン固有の視覚言語データセットに依存するタスクよりも優れた有効性を示した。

関連論文リスト

Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。 FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-07-24T11:28:53Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
Multilingual Vision-Language Pre-training for the Remote Sensing Domain [4.118895088882213]
コントラスト言語-画像事前学習(CLIP)に基づく手法は、現在、リモートセンシングデータを含む視覚・言語タスクをサポートするために広く使われている。本研究は,多言語CLIPモデルの微調整を探求する,リモートセンシング領域のための新しいビジョン・アンド・ランゲージモデルを提案する。提案したモデルでは,Remote Sensing Multilingual CLIP (RS-M-CLIP) と名づけた。
論文参考訳（メタデータ） (2024-10-30T18:13:11Z)
VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks [6.731844884087068]
本稿では、ドメイン一般化のためのVolDoGer: Vision-Languageデータセットを提案する。このデータセットは、画像キャプション、視覚的質問応答、視覚的内容の3つの視覚言語タスクに対処する。我々は、LLMベースのデータアノテーション技術を視覚言語タスクに拡張し、人間のアノテータを募集する際の負担を軽減する。
論文参考訳（メタデータ） (2024-07-29T08:38:46Z)
Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文参考訳（メタデータ） (2024-07-18T20:29:49Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
Integrating Self-supervised Speech Model with Pseudo Word-level Targets from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。 4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文参考訳（メタデータ） (2024-02-08T16:55:21Z)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文参考訳（メタデータ） (2022-12-01T05:00:18Z)
Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文参考訳（メタデータ） (2022-10-18T17:01:35Z)
Making the Most of Text Semantics to Improve Biomedical Vision--Language Processing [17.96645738679543]
テキスト・セマンティック・モデリングは自己教師付き視覚処理におけるコントラスト学習を大幅に改善できることを示す。テキストモデリングの改善に焦点をあてた,自己教師型共同視覚言語アプローチを提案する。
論文参考訳（メタデータ） (2022-04-21T00:04:35Z)
Generating More Pertinent Captions by Leveraging Semantics and Style on Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文参考訳（メタデータ） (2021-11-24T19:00:05Z)
Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文参考訳（メタデータ） (2020-10-14T02:11:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。