論文の概要: MoveFM-R: Advancing Mobility Foundation Models via Language-driven Semantic Reasoning
- arxiv url: http://arxiv.org/abs/2509.22403v1
- Date: Fri, 26 Sep 2025 14:31:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.503074
- Title: MoveFM-R: Advancing Mobility Foundation Models via Language-driven Semantic Reasoning
- Title(参考訳): MoveFM-R:言語駆動のセマンティック推論によるモビリティファウンデーションモデルの改善
- Authors: Fanjin Meng, Yuan Yuan, Jingtao Ding, Jie Feng, Chonghua Han, Yong Li,
- Abstract要約: モビリティ・ファンデーション・モデル(MFM)は、人間の動きパターンのモデリングを進歩させたが、データスケールと意味理解の制限により天井に面している。
本稿では,言語駆動型セマンティック推論機能を活用することで,モビリティ基盤モデルの潜在能力を最大限に活用する新しいフレームワークであるMoveFM-Rを提案する。
MoveFM-Rは、地理的言語ギャップを埋めるために意味的に拡張された位置エンコーディング、進歩的なカリキュラム、対話的な自己回帰メカニズムの3つの中心的なイノベーションに基づいて構築されている。
- 参考スコア(独自算出の注目度): 17.430772832222793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mobility Foundation Models (MFMs) have advanced the modeling of human movement patterns, yet they face a ceiling due to limitations in data scale and semantic understanding. While Large Language Models (LLMs) offer powerful semantic reasoning, they lack the innate understanding of spatio-temporal statistics required for generating physically plausible mobility trajectories. To address these gaps, we propose MoveFM-R, a novel framework that unlocks the full potential of mobility foundation models by leveraging language-driven semantic reasoning capabilities. It tackles two key challenges: the vocabulary mismatch between continuous geographic coordinates and discrete language tokens, and the representation gap between the latent vectors of MFMs and the semantic world of LLMs. MoveFM-R is built on three core innovations: a semantically enhanced location encoding to bridge the geography-language gap, a progressive curriculum to align the LLM's reasoning with mobility patterns, and an interactive self-reflection mechanism for conditional trajectory generation. Extensive experiments demonstrate that MoveFM-R significantly outperforms existing MFM-based and LLM-based baselines. It also shows robust generalization in zero-shot settings and excels at generating realistic trajectories from natural language instructions. By synthesizing the statistical power of MFMs with the deep semantic understanding of LLMs, MoveFM-R pioneers a new paradigm that enables a more comprehensive, interpretable, and powerful modeling of human mobility. The implementation of MoveFM-R is available online at https://anonymous.4open.science/r/MoveFM-R-CDE7/.
- Abstract(参考訳): モビリティ・ファンデーション・モデル(MFM)は、人間の動きパターンのモデリングを進歩させたが、データスケールと意味理解の制限により天井に面している。
大規模言語モデル(LLM)は強力な意味論的推論を提供するが、物理的に妥当な移動軌跡を生成するのに必要な時空間統計の自然的理解は欠如している。
これらのギャップに対処するために,言語駆動のセマンティック推論機能を活用することで,モビリティ基盤モデルの潜在能力を最大限に活用する新しいフレームワークであるMoveFM-Rを提案する。
連続的な座標座標と離散言語トークンの語彙ミスマッチと、MFMの潜在ベクトルとLLMのセマンティックワールドの間の表現ギャップである。
MoveFM-Rは、地理的・言語ギャップを埋める意味的に拡張された位置符号化、LCMの推論とモビリティパターンを整合させるプログレッシブカリキュラム、条件付き軌道生成のための対話的自己回帰機構の3つの中心的イノベーションに基づいて構築されている。
大規模な実験により、MoveFM-R は既存の MFM ベースおよび LLM ベースラインを大幅に上回ることが示された。
また、ゼロショット設定で堅牢な一般化を示し、自然言語命令からリアルな軌跡を生成するのに優れている。
MFMの統計力をLLMの深い意味的理解と組み合わせることで、MoveFM-Rはより包括的で解釈可能で強力な人間の移動性モデリングを可能にする新しいパラダイムを開拓した。
MoveFM-Rの実装はhttps://anonymous.4open.science/r/MoveFM-R-CDE7/で公開されている。
関連論文リスト
- LLaMo: Scaling Pretrained Language Models for Unified Motion Understanding and Generation with Continuous Autoregressive Tokens [19.167250154665812]
LLaMoは、モダリティ固有のMixture-of-Transformersアーキテクチャを通じて、事前訓練された大規模言語モデルを拡張するフレームワークである。
人間の動きを因果連続潜伏空間にエンコードし、デコーダのみのバックボーンで次のトーケン予測パラダイムを維持する。
実験により,LLaMoは一般的な設定で高忠実なテキスト・ツー・モーション生成とモーション・トゥ・テキストキャプションを実現することが示された。
論文 参考訳(メタデータ) (2026-02-12T20:02:21Z) - Codified Finite-state Machines for Role-playing [70.86310301713068]
テキスト文字プロファイルをFSMに自動的に符号化するフレームワークであるCFSM(Codified Finite-State Machines)を紹介する。
CFSMはプロファイルから直接キー状態と遷移を抽出し、文字の一貫性を強制する解釈可能な構造を生成する。
我々はCFSMをCPFSM(Codified Probabilistic Finite-State Machines)に拡張し、遷移を状態上の確率分布としてモデル化する。
論文 参考訳(メタデータ) (2026-02-05T17:19:18Z) - Enhancing Large Language Models for Mobility Analytics with Semantic Location Tokenization [29.17336622418242]
移動分析のための大規模言語モデル(LLM)を大幅に強化する新しいフレームワークであるQT-Mobを提案する。
QT-Mobは、場所を表すためにコンパクトでセマンティックにリッチなトークンを学ぶ、ロケーショントークン化モジュールを導入した。
3つの実世界のデータセットの実験は、次の位置予測とモビリティ回復タスクの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-08T02:17:50Z) - Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation [89.5123417007126]
空間的行動空間をLMM(Large Multimodal Models)に理解させる方法について述べる。
また,これらの課題を解決する上で,LMMの推論能力を完全に活用する方法を示す。
その結果、ReasonManipという名前の7Bバックボーン上に構築された推論モデルは、3つの顕著な利点を示しています。
論文 参考訳(メタデータ) (2025-05-19T06:00:14Z) - MELLM: Exploring LLM-Powered Micro-Expression Understanding Enhanced by Subtle Motion Perception [47.80768014770871]
マイクロ圧縮大言語モデル(MELLM)を提案する。
MLLMの強い推論能力を備えた微妙な顔の動き知覚戦略を取り入れている。
我々のモデルは、マイクロ圧縮理解(MEU)において優れた堅牢性と一般化能力を示す。
論文 参考訳(メタデータ) (2025-05-11T15:08:23Z) - Modular Machine Learning: An Indispensable Path towards New-Generation Large Language Models [33.822930522694406]
我々は,次世代大規模言語モデル(LLM)に不可欠なアプローチとして,有望な学習パラダイム,すなわちモジュール機械学習(MML)を概説する。
我々は,LLMの複雑な構造を,モジュール表現,モジュールモデル,モジュール推論の3つの相互依存成分に分解する,LLMのための統一MMLフレームワークを提案する。
最終的に、MLとLLMの統合は、統計的(深層)学習と形式的(論理的)推論のギャップを埋める可能性があると信じています。
論文 参考訳(メタデータ) (2025-04-28T17:42:02Z) - Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。
トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z) - TrajLLM: A Modular LLM-Enhanced Agent-Based Framework for Realistic Human Trajectory Simulation [3.8106509573548286]
この作業は、Large Language Models(LLM)を活用して人間のモビリティをシミュレートし、従来のモデルにおける高コストやプライバシの問題に対処する。
我々の階層的枠組みは、実世界の人口統計と心理データを用いて、ペルソナ生成、活動選択、目的地予測を統合している。
論文 参考訳(メタデータ) (2025-02-26T00:13:26Z) - MoFM: A Large-Scale Human Motion Foundation Model [2.621434923709917]
ファンデーションモデル(FM)は、様々なタスクにまたがるスケーラビリティと一般化により、研究者の注目を集めている。
MoFMは、時間と空間の両方において複雑な人間の動きを意味的に理解するために設計されている。
MoFMは、ダウンストリームタスクのバックボーンを提供し、ワンショット、教師なし、教師なしタスクなどのパラダイムをサポートする。
論文 参考訳(メタデータ) (2025-02-08T03:42:52Z) - Analyzing Finetuning Representation Shift for Multimodal LLMs Steering [56.710375516257876]
隠れた状態を解釈可能な視覚的概念とテキスト的概念にマッピングすることを提案する。
これにより、オリジナルモデルや微調整モデルからのシフトなど、特定のセマンティックダイナミクスをより効率的に比較することが可能になります。
また,これらの変化を捉えるためにシフトベクトルを用いることを実証する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - LIMP: Large Language Model Enhanced Intent-aware Mobility Prediction [5.7042182940772275]
本稿では,新しい LIMP (LLMs for Intent-ware Mobility Prediction) フレームワークを提案する。
具体的には、LIMPは「Analyze-Abstract-Infer」(A2I)エージェントワークフローを導入し、移動意図推論のためのLLMの常識推論力を解き放つ。
実世界の2つのデータセット上でLIMPを評価し,次の位置予測における精度の向上と効果的な意図推定を行った。
論文 参考訳(メタデータ) (2024-08-23T04:28:56Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - Chain-of-Planned-Behaviour Workflow Elicits Few-Shot Mobility Generation in LLMs [20.70758465552438]
チェーン・オブ・プランテッド・ビヘイビアは、移動意図発生の誤り率を57.8%から19.4%に大幅に下げる。
重力モデルのようなメカニスティックモビリティモデルは、移動意図を物理的モビリティに効果的にマッピングできる。
提案した CoPB ワークフローは GPT-4-turbo を容易にして,移動行動推論のための高品質なラベルを自動生成する。
論文 参考訳(メタデータ) (2024-02-15T09:58:23Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。