論文の概要: A Modular Multitask Reasoning Framework Integrating Spatio-temporal Models and LLMs
- arxiv url: http://arxiv.org/abs/2506.20073v1
- Date: Wed, 25 Jun 2025 00:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.574753
- Title: A Modular Multitask Reasoning Framework Integrating Spatio-temporal Models and LLMs
- Title(参考訳): 時空間モデルとLLMを統合したモジュール型マルチタスク推論フレームワーク
- Authors: Kethmi Hirushini Hettige, Jiahao Ji, Cheng Long, Shili Xiang, Gao Cong, Jingyuan Wang,
- Abstract要約: マルチタスク推論と実行のための分析機能を備えた大規模言語モデルを統合するフレームワークSTReasonを紹介する。
STReason は全ての指標において LLM ベースラインを著しく上回り、特に複雑で論理的・時間的シナリオにおいて優れていた。
人間の評価はSTReasonの信頼性と実用性を評価し、専門家の作業量を削減し、現実の多面的意思決定シナリオに適用性を広げる可能性を示す。
- 参考スコア(独自算出の注目度): 38.304628241767055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatio-temporal data mining plays a pivotal role in informed decision making across diverse domains. However, existing models are often restricted to narrow tasks, lacking the capacity for multi-task inference and complex long-form reasoning that require generation of in-depth, explanatory outputs. These limitations restrict their applicability to real-world, multi-faceted decision scenarios. In this work, we introduce STReason, a novel framework that integrates the reasoning strengths of large language models (LLMs) with the analytical capabilities of spatio-temporal models for multi-task inference and execution. Without requiring task-specific finetuning, STReason leverages in-context learning to decompose complex natural language queries into modular, interpretable programs, which are then systematically executed to generate both solutions and detailed rationales. To facilitate rigorous evaluation, we construct a new benchmark dataset and propose a unified evaluation framework with metrics specifically designed for long-form spatio-temporal reasoning. Experimental results show that STReason significantly outperforms advanced LLM baselines across all metrics, particularly excelling in complex, reasoning-intensive spatio-temporal scenarios. Human evaluations further validate STReason's credibility and practical utility, demonstrating its potential to reduce expert workload and broaden the applicability to real-world spatio-temporal tasks. We believe STReason provides a promising direction for developing more capable and generalizable spatio-temporal reasoning systems.
- Abstract(参考訳): 時空間データマイニングは、様々な領域にわたる情報的意思決定において重要な役割を担っている。
しかし、既存のモデルは狭いタスクに制限されることが多く、マルチタスク推論と詳細な説明出力を必要とする複雑なロングフォーム推論の能力が欠如している。
これらの制限は、現実の多面的意思決定シナリオに適用性を制限する。
本稿では,大規模言語モデル(LLM)の推論強度と,マルチタスク推論と実行のための時空間モデルの解析能力を統合する新しいフレームワークSTReasonを紹介する。
タスク固有の微調整を必要とせず、STReasonは複雑な自然言語クエリをモジュール化された解釈可能なプログラムに分解するためにコンテキスト内学習を利用する。
厳密な評価を容易にするため、我々は新しいベンチマークデータセットを構築し、長期時空間推論に特化して設計されたメトリクスを用いた統一評価フレームワークを提案する。
実験の結果,STReasonは全ての指標,特に複雑で推論集約的な時空間シナリオにおいて,高度なLCMベースラインを著しく上回ることがわかった。
人間の評価はSTReasonの信頼性と実用性をさらに検証し、専門家の作業量を削減し、実世界の時空間タスクへの適用性を広げる可能性を示している。
我々はSTReasonがより有能で一般化可能な時空間推論システムを開発する上で有望な方向性を提供すると考えている。
関連論文リスト
- ModelingAgent: Bridging LLMs and Mathematical Modeling for Real-World Challenges [72.19809898215857]
ModelingBenchは、様々な領域にわたる数学モデリングの競争から、現実に着想を得たオープンエンドの問題を特徴付ける新しいベンチマークである。
これらのタスクには、自然言語を形式的な数学的定式化に翻訳し、適切なツールを適用し、構造化された防御可能なレポートを生成する必要がある。
ツール使用をコーディネートするマルチエージェントフレームワークである ModelingAgent も紹介します。
論文 参考訳(メタデータ) (2025-05-21T03:33:23Z) - Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges [4.668749313973097]
本稿では,Large Language Models (LLMs) とLarge Reasoning Models (LRMs) を3段階の推論複雑性で体系的に評価する。
モデルが直接、あるいはPython Code Interpreterによって応答する26の課題をキュレートします。
LRMは、様々な難易度を持つタスク間で堅牢なパフォーマンスを示し、しばしば従来の第一原理に基づく手法と競合する。
論文 参考訳(メタデータ) (2025-05-16T18:32:35Z) - Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [79.52467430114805]
推論は知性の中心にあり、決定し、結論を導き、ドメインをまたいで一般化する能力を形成する。
人工知能において、システムがオープンで不確実でマルチモーダルな環境でますます機能するにつれて、推論は堅牢で適応的な行動を可能にするために不可欠となる。
大規模マルチモーダル推論モデル(LMRM)は、テキスト、画像、オーディオ、ビデオなどのモダリティを統合し、複雑な推論機能をサポートする、有望なパラダイムとして登場した。
論文 参考訳(メタデータ) (2025-05-08T03:35:23Z) - Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - Learning to Reason Over Time: Timeline Self-Reflection for Improved Temporal Reasoning in Language Models [21.579319926212296]
大規模言語モデル(LLM)は、一貫性のあるテキストを生成し、コンテキストを理解し、推論タスクを実行するための強力なツールとして登場した。
彼らは時間的推論に苦しむが、それはイベントシーケンシングや時間的関係、時間的関係などの時間的関連情報を処理する必要がある。
我々は,タイムライン構築と反復的自己回帰を組み合わせた多段階プロセスを通じて,LLMの時間的推論能力を高める新しいフレームワークであるTISERを紹介する。
論文 参考訳(メタデータ) (2025-04-07T16:51:45Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Limits of Deep Learning: Sequence Modeling through the Lens of Complexity Theory [15.24542569393982]
彼らの成功にもかかわらず、ディープラーニングモデルは複雑な推論と機能構成を必要とするタスクに苦しむ。
本研究では,SSM(Structured State Space Models)とTransformer(Transformer)の制約に関する理論的および実証的研究を行う。
信頼性の高い多段階推論と構成課題解決を実現するための革新的なソリューションの必要性を強調した。
論文 参考訳(メタデータ) (2024-05-26T19:33:23Z) - Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。
本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。