論文の概要: Beyond Segmentation: Road Network Generation with Multi-Modal LLMs
- arxiv url: http://arxiv.org/abs/2310.09755v1
- Date: Sun, 15 Oct 2023 06:46:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 18:19:36.393526
- Title: Beyond Segmentation: Road Network Generation with Multi-Modal LLMs
- Title(参考訳): セグメンテーションを超えて:マルチモーダルLCMを用いた道路ネットワーク生成
- Authors: Sumedh Rasal and Sanjay Kumar Boddhu
- Abstract要約: 本稿では,マルチモーダル大規模言語モデル(LLM)を利用した道路網構築の革新的アプローチを提案する。
本モデルは,道路レイアウトの航空画像の処理と,入力画像内の詳細な航法可能な道路網の作成に特化して設計されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces an innovative approach to road network generation
through the utilization of a multi-modal Large Language Model (LLM). Our model
is specifically designed to process aerial images of road layouts and produce
detailed, navigable road networks within the input images. The core innovation
of our system lies in the unique training methodology employed for the large
language model to generate road networks as its output. This approach draws
inspiration from the BLIP-2 architecture arXiv:2301.12597, leveraging
pre-trained frozen image encoders and large language models to create a
versatile multi-modal LLM.
Our work also offers an alternative to the reasoning segmentation method
proposed in the LISA paper arXiv:2308.00692. By training the large language
model with our approach, the necessity for generating binary segmentation
masks, as suggested in the LISA paper arXiv:2308.00692, is effectively
eliminated. Experimental results underscore the efficacy of our multi-modal LLM
in providing precise and valuable navigational guidance. This research
represents a significant stride in bolstering autonomous navigation systems,
especially in road network scenarios, where accurate guidance is of paramount
importance.
- Abstract(参考訳): 本稿では,マルチモーダル大規模言語モデル (LLM) を利用した道路網構築の革新的アプローチを提案する。
本モデルは,道路レイアウトの航空画像の処理と,入力画像内の詳細な道路網の作成を目的としている。
システムの中核的なイノベーションは,大規模言語モデルがアウトプットとして道路ネットワークを生成するために採用する,ユニークなトレーニング手法にあります。
このアプローチは BLIP-2 アーキテクチャ arXiv:2301.12597 からインスピレーションを得て,事前学習した凍結画像エンコーダと大規模言語モデルを活用し,多目的なマルチモーダル LLM を作成する。
我々の研究は、LISA論文arXiv:2308.00692に提案されている推論セグメンテーション手法の代替も提供する。
LISA論文 arXiv:2308.00692 で提案されているように,我々のアプローチで大規模言語モデルを訓練することにより,バイナリセグメンテーションマスクの生成の必要性を効果的に排除する。
実験結果は,マルチモーダルllmによるナビゲーション指導の有効性を裏付けるものである。
この研究は、自動運転ナビゲーションシステム、特に正確な誘導が最重要である道路ネットワークシナリオの強化において重要な進歩を示している。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Path-LLM: A Shortest-Path-based LLM Learning for Unified Graph Representation [6.401420962078335]
統一グラフ表現を学習するための新しいパス-LLMモデルを提案する。
まず,長短経路(L2SP)選択のための新しいメカニズムを提案する。
そして、L2SPベースのトレーニングテキストを得るために経路テキスト化を設計する。
次に,テキストを自己教師型LLM学習プロセスに入力し,埋め込み学習を行う。
論文 参考訳(メタデータ) (2024-08-10T06:35:11Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。
1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。
マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Semantic Routing for Enhanced Performance of LLM-Assisted Intent-Based 5G Core Network Management and Orchestration [10.981422497762837]
大規模言語モデル(LLM)は人工知能(AI)アプリケーションで急速に普及している。
本稿では,5Gコアネットワークの意図に基づく管理とオーケストレーションにおける性能向上を目的としたセマンティックルーティングを提案する。
論文 参考訳(メタデータ) (2024-04-24T13:34:20Z) - Prompting Multi-Modal Tokens to Enhance End-to-End Autonomous Driving Imitation Learning with LLMs [10.812418229495506]
本稿では,基本的運転模倣学習と大規模言語モデルを組み合わせることで,自律運転のためのハイブリッドエンド・ツー・エンド学習フレームワークを提案する。
提案手法は、CARLAによるオフライン評価において、49.21%の運転スコアと91.34%のルート完了率を得ることができる。
論文 参考訳(メタデータ) (2024-04-07T08:31:12Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Applying Unsupervised Semantic Segmentation to High-Resolution UAV Imagery for Enhanced Road Scene Parsing [12.558144256470827]
新規な教師なし道路解析フレームワークについて紹介する。
提案手法は,手動のアノテーションを使わずに,開発データセット上で89.96%のmIoUの平均インターセクションを実現する。
論文 参考訳(メタデータ) (2024-02-05T13:16:12Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - A Multi-Semantic Metapath Model for Large Scale Heterogeneous Network
Representation Learning [52.83948119677194]
大規模不均一表現学習のためのマルチセマンティックメタパス(MSM)モデルを提案する。
具体的には,マルチセマンティックなメタパスに基づくランダムウォークを生成し,不均衡な分布を扱うヘテロジニアスな近傍を構築する。
提案するフレームワークに対して,AmazonとAlibabaの2つの挑戦的なデータセットに対して,体系的な評価を行う。
論文 参考訳(メタデータ) (2020-07-19T22:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。