論文の概要: TraveLLaMA: Facilitating Multi-modal Large Language Models to Understand Urban Scenes and Provide Travel Assistance
- arxiv url: http://arxiv.org/abs/2504.16505v1
- Date: Wed, 23 Apr 2025 08:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.04692
- Title: TraveLLaMA: Facilitating Multi-modal Large Language Models to Understand Urban Scenes and Provide Travel Assistance
- Title(参考訳): TraveLLaMA:マルチモーダル大言語モデルによる都市景観の理解と旅行支援
- Authors: Meng Chu, Yukang Chen, Haokun Gui, Shaozuo Yu, Yi Wang, Jiaya Jia,
- Abstract要約: 本稿では,都市景観理解と旅行支援を目的とした多モーダル言語モデルTraveLLaMAを提案する。
我々の研究は、220万の質問応答ペアからなる新しい大規模データセットを通じて、実用的なAI旅行アシスタントを開発するという根本的な課題に対処する。
- 参考スコア(独自算出の注目度): 48.12326709517022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tourism and travel planning increasingly rely on digital assistance, yet existing multimodal AI systems often lack specialized knowledge and contextual understanding of urban environments. We present TraveLLaMA, a specialized multimodal language model designed for urban scene understanding and travel assistance. Our work addresses the fundamental challenge of developing practical AI travel assistants through a novel large-scale dataset of 220k question-answer pairs. This comprehensive dataset uniquely combines 130k text QA pairs meticulously curated from authentic travel forums with GPT-enhanced responses, alongside 90k vision-language QA pairs specifically focused on map understanding and scene comprehension. Through extensive fine-tuning experiments on state-of-the-art vision-language models (LLaVA, Qwen-VL, Shikra), we demonstrate significant performance improvements ranging from 6.5\%-9.4\% in both pure text travel understanding and visual question answering tasks. Our model exhibits exceptional capabilities in providing contextual travel recommendations, interpreting map locations, and understanding place-specific imagery while offering practical information such as operating hours and visitor reviews. Comparative evaluations show TraveLLaMA significantly outperforms general-purpose models in travel-specific tasks, establishing a new benchmark for multi-modal travel assistance systems.
- Abstract(参考訳): 観光と旅行計画はデジタルアシスタントにますます依存しているが、既存のマルチモーダルAIシステムは、都市環境に関する専門知識や文脈的理解を欠いていることが多い。
本稿では,都市景観理解と旅行支援を目的とした多モーダル言語モデルTraveLLaMAを提案する。
我々の研究は、220万の質問応答ペアからなる新しい大規模データセットを通じて、実用的なAI旅行アシスタントを開発するという根本的な課題に対処する。
この包括的なデータセットは130kテキストQAペアを、地図理解とシーン理解に特化した90kビジョン言語QAペアと、GPT強化された応答と、真正の旅行フォーラムから慎重にキュレートした。
最先端の視覚言語モデル(LLaVA, Qwen-VL, Shikra)の大規模な微調整実験を通じて、純粋なテキスト旅行理解と視覚質問応答タスクの両方において、6.5\%-9.4\%の大幅な性能向上を示す。
本モデルでは,時間やビジターレビューなどの実践的な情報を提供しながら,文脈的旅行勧告の提供,地図位置の解釈,場所固有の画像の理解に特有な能力を示す。
比較評価の結果、TraveLLaMAは旅行特化タスクにおいて汎用モデルよりも大幅に優れており、マルチモーダル旅行支援システムの新たなベンチマークが確立されている。
関連論文リスト
- GuideDog: A Real-World Egocentric Multimodal Dataset for Blind and Low-Vision Accessibility-Aware Guidance [18.467461615621872]
視力低下と低視力(BLV)による世界22億人にとって、モビリティは依然として重要な課題である。
本稿では,22K画像記述ペアを含む新しいアクセシビリティ対応ガイドデータセットである GuideDogを紹介する。
また818個のサンプルのサブセットである GuideDogQA も開発した。
論文 参考訳(メタデータ) (2025-03-17T05:43:40Z) - InsTALL: Context-aware Instructional Task Assistance with Multi-modal Large Language Models [11.913271486031201]
マルチモーダルな大規模言語モデル(InsTALL)を用いたコンテキスト認識型インストラクショナル・タスク・アシスタントを開発した。
InsTALLは、そのタスクに関連するユーザクエリに対して、リアルタイムで応答する。
InsTALLはマルチモーダルアクティビティ理解のためのサブタスクを提案する。
論文 参考訳(メタデータ) (2025-01-21T15:55:06Z) - VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks [48.67062958311173]
VL-GLUEは、自然言語理解のためのマルチタスクベンチマークである。
既存の大規模視覚言語モデルでは,このベンチマークは非常に難しい。
論文 参考訳(メタデータ) (2024-10-17T15:27:17Z) - Advancing Transportation Mode Share Analysis with Built Environment: Deep Hybrid Models with Urban Road Network [12.349403667141559]
本研究では,移動モード共有分析のための入力として,道路ネットワークと社会デマログラフィー機能を直接結合したディープハイブリッドモデル(DHM)を提案する。
シカゴにおけるモード共有予測の実験において、DHMは社会デマトグラフィー構造に価値ある空間的洞察を与えることができることを示した。
論文 参考訳(メタデータ) (2024-05-23T00:59:00Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - The Urban Toolkit: A Grammar-based Framework for Urban Visual Analytics [5.674216760436341]
都市問題の複雑な性質と利用可能なデータの圧倒的な量は、これらの取り組みを実用的な洞察に翻訳する上で大きな課題を提起している。
興味のある特徴を分析する際、都市の専門家は、異なるテーマ(例えば、日光アクセス、人口統計)と物理的(例えば、建物、ストリートネットワーク)のデータ層を変換し、統合し、視覚化しなければならない。
これにより、プログラマにとって視覚的なデータ探索とシステム実装が難しくなり、コンピュータ科学以外の都市の専門家にとって高い入り口障壁となる。
論文 参考訳(メタデータ) (2023-08-15T13:43:04Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - Multimodal Text Style Transfer for Outdoor Vision-and-Language
Navigation [71.67507925788577]
本稿では,屋外ナビゲーションタスクのためのマルチモーダルテキストスタイル変換(MTST)学習手法を提案する。
まず、Google Maps APIで生成された命令のスタイルを転送し、拡張された外部ナビゲーションデータセットでナビゲータを事前訓練することで、ナビゲーションデータを強化します。
実験結果から, MTST学習手法はモデルに依存しないことが明らかとなり, MTSTアプローチは屋外VLNタスクのベースラインモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2020-07-01T04:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。