Fugu-MT 論文翻訳(概要): Beyond Segmentation: Road Network Generation with Multi-Modal LLMs

論文の概要: Beyond Segmentation: Road Network Generation with Multi-Modal LLMs

arxiv url: http://arxiv.org/abs/2310.09755v1
Date: Sun, 15 Oct 2023 06:46:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-17 18:19:36.393526
Title: Beyond Segmentation: Road Network Generation with Multi-Modal LLMs
Title（参考訳）: セグメンテーションを超えて:マルチモーダルLCMを用いた道路ネットワーク生成
Authors: Sumedh Rasal and Sanjay Kumar Boddhu
Abstract要約: 本稿では,マルチモーダル大規模言語モデル(LLM)を利用した道路網構築の革新的アプローチを提案する。本モデルは,道路レイアウトの航空画像の処理と,入力画像内の詳細な航法可能な道路網の作成に特化して設計されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper introduces an innovative approach to road network generation through the utilization of a multi-modal Large Language Model (LLM). Our model is specifically designed to process aerial images of road layouts and produce detailed, navigable road networks within the input images. The core innovation of our system lies in the unique training methodology employed for the large language model to generate road networks as its output. This approach draws inspiration from the BLIP-2 architecture arXiv:2301.12597, leveraging pre-trained frozen image encoders and large language models to create a versatile multi-modal LLM. Our work also offers an alternative to the reasoning segmentation method proposed in the LISA paper arXiv:2308.00692. By training the large language model with our approach, the necessity for generating binary segmentation masks, as suggested in the LISA paper arXiv:2308.00692, is effectively eliminated. Experimental results underscore the efficacy of our multi-modal LLM in providing precise and valuable navigational guidance. This research represents a significant stride in bolstering autonomous navigation systems, especially in road network scenarios, where accurate guidance is of paramount importance.
Abstract（参考訳）: 本稿では,マルチモーダル大規模言語モデル (LLM) を利用した道路網構築の革新的アプローチを提案する。本モデルは,道路レイアウトの航空画像の処理と,入力画像内の詳細な道路網の作成を目的としている。システムの中核的なイノベーションは,大規模言語モデルがアウトプットとして道路ネットワークを生成するために採用する,ユニークなトレーニング手法にあります。このアプローチは BLIP-2 アーキテクチャ arXiv:2301.12597 からインスピレーションを得て,事前学習した凍結画像エンコーダと大規模言語モデルを活用し,多目的なマルチモーダル LLM を作成する。我々の研究は、LISA論文arXiv:2308.00692に提案されている推論セグメンテーション手法の代替も提供する。 LISA論文 arXiv:2308.00692 で提案されているように,我々のアプローチで大規模言語モデルを訓練することにより,バイナリセグメンテーションマスクの生成の必要性を効果的に排除する。実験結果は,マルチモーダルllmによるナビゲーション指導の有効性を裏付けるものである。この研究は、自動運転ナビゲーションシステム、特に正確な誘導が最重要である道路ネットワークシナリオの強化において重要な進歩を示している。

関連論文リスト

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
Routing for Large ML Models [0.0]
大規模言語モデル(LLM)やその他の大規模機械学習モデルのトレーニングには、データセンターネットワーク間で大量のデータの通信が繰り返される。本稿では,LLMやその他の大規模MLモデルのトレーニングにおいて,ネットワーク全体の効率をテキスト化するためのアルゴリズムフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-07T11:02:17Z)
Meta-Sparsity: Learning Optimal Sparse Structures in Multi-task Networks through Meta-learning [4.462334751640166]
Meta-sparsityは、ディープニューラルネットワーク(DNN)がマルチタスク学習環境で最適なスパース共有構造を生成することを可能にする、モデルのスパーシティを学習するためのフレームワークである。 Model Agnostic Meta-Learning (MAML)に触発され、マルチタスクシナリオにおける共有パラメータと最適なスパースパラメータの学習に重点を置いている。メタスパーシティーの有効性は、2つのデータセットに対する広範な実験によって厳格に評価されている。
論文参考訳（メタデータ） (2025-01-21T13:25:32Z)
Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。 CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-01T01:51:31Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文参考訳（メタデータ） (2024-08-20T09:58:30Z)
Path-LLM: A Shortest-Path-based LLM Learning for Unified Graph Representation [6.401420962078335]
統一グラフ表現を学習するための新しいパス-LLMモデルを提案する。まず,長短経路(L2SP)選択のための新しいメカニズムを提案する。そして、L2SPベースのトレーニングテキストを得るために経路テキスト化を設計する。次に,テキストを自己教師型LLM学習プロセスに入力し,埋め込み学習を行う。
論文参考訳（メタデータ） (2024-08-10T06:35:11Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。 1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)
Semantic Routing for Enhanced Performance of LLM-Assisted Intent-Based 5G Core Network Management and Orchestration [10.981422497762837]
大規模言語モデル(LLM)は人工知能(AI)アプリケーションで急速に普及している。本稿では,5Gコアネットワークの意図に基づく管理とオーケストレーションにおける性能向上を目的としたセマンティックルーティングを提案する。
論文参考訳（メタデータ） (2024-04-24T13:34:20Z)
Prompting Multi-Modal Tokens to Enhance End-to-End Autonomous Driving Imitation Learning with LLMs [10.812418229495506]
本稿では,基本的運転模倣学習と大規模言語モデルを組み合わせることで,自律運転のためのハイブリッドエンド・ツー・エンド学習フレームワークを提案する。提案手法は、CARLAによるオフライン評価において、49.21%の運転スコアと91.34%のルート完了率を得ることができる。
論文参考訳（メタデータ） (2024-04-07T08:31:12Z)
Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文参考訳（メタデータ） (2024-03-11T01:07:36Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
Applying Unsupervised Semantic Segmentation to High-Resolution UAV Imagery for Enhanced Road Scene Parsing [12.558144256470827]
新規な教師なし道路解析フレームワークについて紹介する。提案手法は,手動のアノテーションを使わずに,開発データセット上で89.96%のmIoUの平均インターセクションを実現する。
論文参考訳（メタデータ） (2024-02-05T13:16:12Z)
Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。 CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文参考訳（メタデータ） (2021-11-30T04:30:10Z)
A Multi-Semantic Metapath Model for Large Scale Heterogeneous Network Representation Learning [52.83948119677194]
大規模不均一表現学習のためのマルチセマンティックメタパス(MSM)モデルを提案する。具体的には,マルチセマンティックなメタパスに基づくランダムウォークを生成し,不均衡な分布を扱うヘテロジニアスな近傍を構築する。提案するフレームワークに対して,AmazonとAlibabaの2つの挑戦的なデータセットに対して,体系的な評価を行う。
論文参考訳（メタデータ） (2020-07-19T22:50:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。