論文の概要: MobQA: A Benchmark Dataset for Semantic Understanding of Human Mobility Data through Question Answering
- arxiv url: http://arxiv.org/abs/2508.11163v1
- Date: Fri, 15 Aug 2025 02:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.713853
- Title: MobQA: A Benchmark Dataset for Semantic Understanding of Human Mobility Data through Question Answering
- Title(参考訳): MobQA:質問回答による人間のモビリティデータのセマンティック理解のためのベンチマークデータセット
- Authors: Hikaru Asano, Hiroki Ouchi, Akira Kasuga, Ryo Yonetani,
- Abstract要約: MobQAは、大規模言語モデルの意味理解能力を評価するために設計されたベンチマークデータセットである。
5800の高品質な質問応答対を3つの相補的な質問タイプに分けて構成する。
主要なLCMの評価は, 事実検索に強い性能を示すが, 意味的推論や説明的質問応答には大きな制限がある。
- 参考スコア(独自算出の注目度): 9.553991436441484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents MobQA, a benchmark dataset designed to evaluate the semantic understanding capabilities of large language models (LLMs) for human mobility data through natural language question answering. While existing models excel at predicting human movement patterns, it remains unobvious how much they can interpret the underlying reasons or semantic meaning of those patterns. MobQA provides a comprehensive evaluation framework for LLMs to answer questions about diverse human GPS trajectories spanning daily to weekly granularities. It comprises 5,800 high-quality question-answer pairs across three complementary question types: factual retrieval (precise data extraction), multiple-choice reasoning (semantic inference), and free-form explanation (interpretive description), which all require spatial, temporal, and semantic reasoning. Our evaluation of major LLMs reveals strong performance on factual retrieval but significant limitations in semantic reasoning and explanation question answering, with trajectory length substantially impacting model effectiveness. These findings demonstrate the achievements and limitations of state-of-the-art LLMs for semantic mobility understanding.\footnote{MobQA dataset is available at https://github.com/CyberAgentAILab/mobqa.}
- Abstract(参考訳): 本稿では,人間の移動データに対する大規模言語モデル(LLM)の意味理解能力を評価するために,自然言語質問応答を用いたベンチマークデータセットMobQAを提案する。
既存のモデルは人間の動きのパターンを予測するのに優れていますが、そのパターンの根底にある理由や意味をどの程度解釈できるかは明らかではありません。
MobQAは、LLMの総合的な評価フレームワークを提供し、毎日から毎週の粒度にまたがる多様な人間のGPSトラジェクトリに関する質問に答える。
事実検索(精度データ抽出)、複数選択推論(セマンティック推論)、自由形式説明(解釈記述)の3つの相補的な質問タイプにまたがる5,800の高品質な質問応答ペアで構成され、いずれも空間的、時間的、意味的推論を必要とする。
主要なLLMの評価は,実例検索において高い性能を示すが,意味的推論や説明的質問応答には大きな制限があり,軌道長がモデルの有効性に大きく影響している。
これらの結果から, 意味的モビリティ理解のための最先端LLMの達成と限界が示された。
\footnote{MobQAデータセットはhttps://github.com/CyberAgentAILab/mobqa.comで公開されている。
※
関連論文リスト
- Chart-HQA: A Benchmark for Hypothetical Question Answering in Charts [62.45232157149698]
本稿では,同じ質問に対して仮定を課し,グラフの内容に基づいた反実的推論を行うようモデルに強制する,新しいChart hypothetical Question Answering (HQA)タスクを提案する。
さらに,MLLMの効率的なテキスト編集機能と人間の知識を併用して,多種多様な高品質HQAデータを低コストで生成する,人間とAIの対話型データ合成手法であるHAIを導入する。
論文 参考訳(メタデータ) (2025-03-06T05:08:40Z) - Mobility-LLM: Learning Visiting Intentions and Travel Preferences from Human Mobility Data with Large Language Models [22.680033463634732]
位置情報ベースのサービス(LBS)は、チェックインシーケンスを通じて多様な行動に関する広範な人間の移動データを蓄積している。
しかし、チェックインシーケンスを分析する既存のモデルでは、これらのシーケンスに含まれる意味を考慮できない。
複数のタスクのチェックインシーケンスを解析するために,大規模言語モデルを活用した新しいフレームワークである Mobility-LLM を提案する。
論文 参考訳(メタデータ) (2024-10-29T01:58:06Z) - Deciphering Human Mobility: Inferring Semantics of Trajectories with Large Language Models [10.841035090991651]
本稿では,ユーザの職業カテゴリー,活動,シーケンス,軌道記述の3つの重要な側面を通じて意味推論を定義する。
本稿では,トラジェクトリデータのセマンティック分析を活用するために,大規模言語モデルを用いたトラジェクトリ意味推論(TSI-LLM)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-30T08:55:48Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics
Capabilities [40.55743949223173]
Pragmatics Understanding Benchmark (PUB) は、4つの実用的現象における14のタスクからなるデータセットである。
PUBには合計28kのデータポイントが含まれており、そのうち6.1kは私たちによって作成され、残りは既存のデータセットから適応されている。
本研究は,命令追従とチャットの微調整により,より小さな言語モデルの実用性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-13T13:46:14Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。