論文の概要: TAMA: Tool-Augmented Multimodal Agent for Procedural Activity Understanding
- arxiv url: http://arxiv.org/abs/2510.00161v1
- Date: Tue, 30 Sep 2025 18:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.199492
- Title: TAMA: Tool-Augmented Multimodal Agent for Procedural Activity Understanding
- Title(参考訳): TAMA:手続き的活動理解のためのツール強化マルチモーダルエージェント
- Authors: Kimihiro Hasegawa, Wiradee Imrattanatrai, Masaki Asada, Ken Fukuda, Teruko Mitamura,
- Abstract要約: 手続き型アクティビティアシスタントは、さまざまな設定で人間をサポートする可能性がある。
その潜在的なユースケースにもかかわらず、そのようなアシスタントに適したシステム開発はいまだに過小評価されている。
本稿では,プロシージャ活動理解のためのツール拡張マルチモーダルエージェントTAMAを提案する。
- 参考スコア(独自算出の注目度): 11.016194761755086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Procedural activity assistants potentially support humans in a variety of settings, from our daily lives, e.g., cooking or assembling flat-pack furniture, to professional situations, e.g., manufacturing or biological experiments. Despite its potential use cases, the system development tailored for such an assistant is still underexplored. In this paper, we propose a novel framework, called TAMA, a Tool-Augmented Multimodal Agent, for procedural activity understanding. TAMA enables interleaved multimodal reasoning by making use of multimedia-returning tools in a training-free setting. Our experimental result on the multimodal procedural QA dataset, ProMQA-Assembly, shows that our approach can improve the performance of vision-language models, especially GPT-5 and MiMo-VL. Furthermore, our ablation studies provide empirical support for the effectiveness of two features that characterize our framework, multimedia-returning tools and agentic flexible tool selection. We believe our proposed framework and experimental results facilitate the thinking with images paradigm for video and multimodal tasks, let alone the development of procedural activity assistants.
- Abstract(参考訳): プロシージャ・アクティビティ・アシスタントは、日常の生活、例えば料理やフラットパック家具の組み立て、職業的状況、例えば製造や生物実験など、さまざまな環境において人間を支援できる可能性がある。
その潜在的なユースケースにもかかわらず、そのようなアシスタントに適したシステム開発はいまだに過小評価されている。
本稿では,プロシージャ活動理解のためのツール拡張マルチモーダルエージェントTAMAを提案する。
TAMAは、マルチメディアリターンツールをトレーニング不要の環境で活用することにより、インターリーブマルチモーダル推論を可能にする。
マルチモーダルな手続き型QAデータセットProMQA-Assemblyによる実験結果から,視覚言語モデル,特にGPT-5とMiMo-VLの性能向上が得られた。
さらに,我々のアブレーション研究は,我々のフレームワーク,マルチメディア・リターン・ツール,エージェント・フレキシブル・ツール選択を特徴付ける2つの機能の有効性を実証的に支援する。
提案するフレームワークと実験結果は,手続き型アクティビティアシスタントの開発だけでなく,ビデオやマルチモーダルタスクのイメージパラダイムによる思考を促進するものだと考えている。
関連論文リスト
- ProMQA-Assembly: Multimodal Procedural QA Dataset on Assembly [13.040491675077687]
組立活動に関する新しいマルチモーダルQAデータセットを提案する。
我々のデータセットであるProMQA-Assemblyは、391のQAペアで構成されており、人間の活動記録とその指導マニュアルのマルチモーダル理解を必要とする。
論文 参考訳(メタデータ) (2025-09-03T02:26:48Z) - VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection [47.259066449806866]
VisTAは新しい強化学習フレームワークで、視覚エージェントが経験的パフォーマンスに基づいた多様なライブラリのツールを動的に探索し、選択し、組み合わせることを可能にする。
トレーニング不要のベースラインよりも,VisTAが大幅なパフォーマンス向上を実現していることを示す。
これらの結果は、VisTAが一般化を強化し、多様なツールを適応的に活用し、柔軟な経験駆動型視覚推論システムを実現する能力を強調している。
論文 参考訳(メタデータ) (2025-05-26T17:59:17Z) - APT: Architectural Planning and Text-to-Blueprint Construction Using Large Language Models for Open-World Agents [8.479128275067742]
本稿では,自律型エージェントによるMinecraftの複雑な構造構築を可能にする,LLM(Large Language Model)駆動のフレームワークを提案する。
連鎖分解とマルチモーダル入力を用いることで、このフレームワークは詳細なアーキテクチャレイアウトと青写真を生成する。
本エージェントは, メモリとリフレクションモジュールの両方を組み込んで, 生涯学習, 適応的洗練, エラー訂正を容易にする。
論文 参考訳(メタデータ) (2024-11-26T09:31:28Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update [69.59482029810198]
CLOVAは、推論、リフレクション、学習フェーズを含むフレームワーク内で動作するクローズドループビジュアルアシスタントである。
その結果,CLOVAは既存のツール利用手法を5%,知識タグ付けでは10%,画像編集では20%,視覚的質問応答や複数画像推論では5%に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-18T03:34:07Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。