論文の概要: MATEO: A Multimodal Benchmark for Temporal Reasoning and Planning in LVLMs
- arxiv url: http://arxiv.org/abs/2602.14589v1
- Date: Mon, 16 Feb 2026 09:41:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.352386
- Title: MATEO: A Multimodal Benchmark for Temporal Reasoning and Planning in LVLMs
- Title(参考訳): MATEO:LVLMにおける時間的推論と計画のためのマルチモーダルベンチマーク
- Authors: Gabriel Roccabruna, Olha Khomyn, Giuseppe Riccardi,
- Abstract要約: AIエージェントは、知覚のオーケストレーション、サブゴール分解、実行を含む複雑な目標を達成する計画を立てる必要がある。
時間的実行に対する基礎モデルの理解に関する既存の研究は、自動的に導出されたアノテーション、線形連鎖としてのTEOの近似、テキストのみの入力に限られる。
実世界の計画に必要なLVLM(Large Vision Language Models)の時間的推論能力の評価と改善を目的としたベンチマークであるMATEOを紹介する。
- 参考スコア(独自算出の注目度): 2.1793134762413433
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: AI agents need to plan to achieve complex goals that involve orchestrating perception, sub-goal decomposition, and execution. These plans consist of ordered steps structured according to a Temporal Execution Order (TEO, a directed acyclic graph that ensures each step executes only after its preconditions are satisfied. Existing research on foundational models' understanding of temporal execution is limited to automatically derived annotations, approximations of the TEO as a linear chain, or text-only inputs. To address this gap, we introduce MATEO (MultimodAl Temporal Execution Order), a benchmark designed to assess and improve the temporal reasoning abilities of Large Vision Language Models (LVLMs) required for real-world planning. We acquire a high-quality professional multimodal recipe corpus, authored through a standardized editorial process that decomposes instructions into discrete steps, each paired with corresponding images. We collect TEO annotations as graphs by designing and using a scalable crowdsourcing pipeline. Using MATEO, we evaluate six state-of-the-art LVLMs across model scales, varying language context, multimodal input structure, and fine-tuning strategies.
- Abstract(参考訳): AIエージェントは、知覚のオーケストレーション、サブゴール分解、実行を含む複雑な目標を達成する計画を立てる必要がある。
これらの計画は、時間的実行順序 (TEO) に基づいて構成された順序付けられたステップから構成される。
時間的実行に対する基礎モデルの理解に関する既存の研究は、自動的に導出されたアノテーション、線形連鎖としてのTEOの近似、テキストのみの入力に限られる。
このギャップに対処するために,MATEO (MultimodAl Temporal Execution Order) を導入し,実世界の計画に必要なLVLM(Large Vision Language Models)の時間的推論能力の評価と改善を目的としている。
高品質なマルチモーダルレシピコーパスを入手し、それらを標準化された編集プロセスで作成し、命令を個別のステップに分解し、それぞれに対応する画像と組み合わせる。
スケーラブルなクラウドソーシングパイプラインを設計および使用することで、TEOアノテーションをグラフとして収集する。
MATEOを用いて、モデルスケール、異なる言語コンテキスト、マルチモーダル入力構造、微調整戦略の6つの最先端LVLMを評価する。
関連論文リスト
- Semantically Labelled Automata for Multi-Task Reinforcement Learning with LTL Instructions [61.479946958462754]
エージェントが単一のユニバーサルポリシーを学習する環境であるマルチタスク強化学習(RL)について検討する。
本稿では,新世代の意味翻訳を利用したタスク埋め込み手法を提案する。
論文 参考訳(メタデータ) (2026-02-06T14:46:27Z) - AR-MOT: Autoregressive Multi-object Tracking [56.09738000988466]
本稿では,大規模言語モデル(LLM)フレームワーク内のシーケンス生成タスクとしてMOTを定式化する,新しい自己回帰パラダイムを提案する。
この設計により、タスク固有のヘッドを必要とせずに、フレキシブルなシーケンス構成によって構造化された結果を出力できる。
地域レベルの視覚知覚を高めるために,事前訓練された検出器に基づくオブジェクト・トケナイザを導入する。
論文 参考訳(メタデータ) (2026-01-05T09:17:28Z) - Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。
ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文 参考訳(メタデータ) (2025-03-06T15:29:13Z) - Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing [43.75154489681047]
MDS(Multi-Document Summarization)のためのテスト時間スケーリングを利用した新しいフレームワークを提案する。
提案手法では,様々なプロンプトを用いて複数の候補サマリーを生成し,アグリゲータと組み合わせて洗練されたサマリーを生成する。
また,本手法を効果的に評価するために,LCM-ACU(Consistency-Aware Preference)スコアとLLM-Content-Unit(LLM-ACU)スコアという2つの新しいLCMベースの指標を導入する。
論文 参考訳(メタデータ) (2025-02-27T23:34:47Z) - Show and Guide: Instructional-Plan Grounded Vision and Language Model [9.84151565227816]
MM-PlanLLMは,最初のマルチモーダル計画追従言語モデルである。
会話ビデオモーメント検索と視覚インフォームドステップ生成という,2つの重要なタスクを通じて,クロスモダリティを実現する。
MM-PlanLLMは、新しいマルチタスク・マルチステージアプローチを用いて訓練される。
論文 参考訳(メタデータ) (2024-09-27T18:20:24Z) - Nl2Hltl2Plan: Scaling Up Natural Language Understanding for Multi-Robots Through Hierarchical Temporal Logic Task Representation [8.180994118420053]
Nl2Hltl2Planは自然言語コマンドを階層線形時間論理(LTL)に変換するフレームワーク
まず、LLMは命令を階層的なタスクツリーに変換し、論理的および時間的関係をキャプチャする。
次に、微調整されたLLMは、サブタスクをフラットな公式に変換し、階層的な仕様に集約する。
論文 参考訳(メタデータ) (2024-08-15T14:46:13Z) - Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - Modeling Temporal-Modal Entity Graph for Procedural Multimodal Machine
Comprehension [23.281727955934304]
手続き型マルチモーダル文書(PMD)は、テキスト命令とそれに対応する画像を段階的に整理する。
本研究では,M3C(Procedural MultiModal Machine)を細粒度レベルで(文書や文レベルでの既存調査と比較)アプローチする。
論文 参考訳(メタデータ) (2022-04-06T03:41:13Z) - Procedures as Programs: Hierarchical Control of Situated Agents through
Natural Language [81.73820295186727]
エージェント命令と制御のための階層的な手続き的知識を表現する強力な手法である,プログラムとしての手続きの形式化を提案する。
NL命令に対するIQAおよびALFREDデータセット上で、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-09-16T20:36:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。