論文の概要: Beyond Segmentation: Road Network Generation with Multi-Modal LLMs
- arxiv url: http://arxiv.org/abs/2310.09755v1
- Date: Sun, 15 Oct 2023 06:46:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 18:19:36.393526
- Title: Beyond Segmentation: Road Network Generation with Multi-Modal LLMs
- Title(参考訳): セグメンテーションを超えて:マルチモーダルLCMを用いた道路ネットワーク生成
- Authors: Sumedh Rasal and Sanjay Kumar Boddhu
- Abstract要約: 本稿では,マルチモーダル大規模言語モデル(LLM)を利用した道路網構築の革新的アプローチを提案する。
本モデルは,道路レイアウトの航空画像の処理と,入力画像内の詳細な航法可能な道路網の作成に特化して設計されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces an innovative approach to road network generation
through the utilization of a multi-modal Large Language Model (LLM). Our model
is specifically designed to process aerial images of road layouts and produce
detailed, navigable road networks within the input images. The core innovation
of our system lies in the unique training methodology employed for the large
language model to generate road networks as its output. This approach draws
inspiration from the BLIP-2 architecture arXiv:2301.12597, leveraging
pre-trained frozen image encoders and large language models to create a
versatile multi-modal LLM.
Our work also offers an alternative to the reasoning segmentation method
proposed in the LISA paper arXiv:2308.00692. By training the large language
model with our approach, the necessity for generating binary segmentation
masks, as suggested in the LISA paper arXiv:2308.00692, is effectively
eliminated. Experimental results underscore the efficacy of our multi-modal LLM
in providing precise and valuable navigational guidance. This research
represents a significant stride in bolstering autonomous navigation systems,
especially in road network scenarios, where accurate guidance is of paramount
importance.
- Abstract(参考訳): 本稿では,マルチモーダル大規模言語モデル (LLM) を利用した道路網構築の革新的アプローチを提案する。
本モデルは,道路レイアウトの航空画像の処理と,入力画像内の詳細な道路網の作成を目的としている。
システムの中核的なイノベーションは,大規模言語モデルがアウトプットとして道路ネットワークを生成するために採用する,ユニークなトレーニング手法にあります。
このアプローチは BLIP-2 アーキテクチャ arXiv:2301.12597 からインスピレーションを得て,事前学習した凍結画像エンコーダと大規模言語モデルを活用し,多目的なマルチモーダル LLM を作成する。
我々の研究は、LISA論文arXiv:2308.00692に提案されている推論セグメンテーション手法の代替も提供する。
LISA論文 arXiv:2308.00692 で提案されているように,我々のアプローチで大規模言語モデルを訓練することにより,バイナリセグメンテーションマスクの生成の必要性を効果的に排除する。
実験結果は,マルチモーダルllmによるナビゲーション指導の有効性を裏付けるものである。
この研究は、自動運転ナビゲーションシステム、特に正確な誘導が最重要である道路ネットワークシナリオの強化において重要な進歩を示している。
関連論文リスト
- Semantic Routing for Enhanced Performance of LLM-Assisted Intent-Based 5G Core Network Management and Orchestration [10.981422497762837]
大規模言語モデル(LLM)は人工知能(AI)アプリケーションで急速に普及している。
本稿では,5Gコアネットワークの意図に基づく管理とオーケストレーションにおける性能向上を目的としたセマンティックルーティングを提案する。
論文 参考訳(メタデータ) (2024-04-24T13:34:20Z) - Prompting Multi-Modal Tokens to Enhance End-to-End Autonomous Driving Imitation Learning with LLMs [10.812418229495506]
本稿では,基本的運転模倣学習と大規模言語モデルを組み合わせることで,自律運転のためのハイブリッドエンド・ツー・エンド学習フレームワークを提案する。
提案手法は、CARLAによるオフライン評価において、49.21%の運転スコアと91.34%のルート完了率を得ることができる。
論文 参考訳(メタデータ) (2024-04-07T08:31:12Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Applying Unsupervised Semantic Segmentation to High-Resolution UAV Imagery for Enhanced Road Scene Parsing [12.558144256470827]
新規な教師なし道路解析フレームワークについて紹介する。
提案手法は,手動のアノテーションを使わずに,開発データセット上で89.96%のmIoUの平均インターセクションを実現する。
論文 参考訳(メタデータ) (2024-02-05T13:16:12Z) - Large AI Model Empowered Multimodal Semantic Communications [51.17527319441436]
本稿では,Large AI Model-based Multimodal SC (LAM-MSC) フレームワークを提案する。
SC-based Multimodal Alignment (MMA)について紹介する。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案する。
最後に、CGE(Conditional Generative Adversarial Network-based Channel Estimation)を適用し、CSI(Channel State Information)を得る。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Exploiting Multilingualism in Low-resource Neural Machine Translation
via Adversarial Learning [3.2258463207097017]
Generative Adversarial Networks (GAN) はニューラルマシン翻訳(NMT)に有望なアプローチを提供する
GANでは、バイリンガルモデルと同様に、マルチリンガルNTTはモデルトレーニング中に各文の参照翻訳を1つだけ考慮している。
本稿では,DAASI(Denoising Adversarial Auto-Encoder-based Sentence Interpolation)アプローチによる文計算を提案する。
論文 参考訳(メタデータ) (2023-03-31T12:34:14Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - A Multi-Semantic Metapath Model for Large Scale Heterogeneous Network
Representation Learning [52.83948119677194]
大規模不均一表現学習のためのマルチセマンティックメタパス(MSM)モデルを提案する。
具体的には,マルチセマンティックなメタパスに基づくランダムウォークを生成し,不均衡な分布を扱うヘテロジニアスな近傍を構築する。
提案するフレームワークに対して,AmazonとAlibabaの2つの挑戦的なデータセットに対して,体系的な評価を行う。
論文 参考訳(メタデータ) (2020-07-19T22:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。