論文の概要: MMTB: Evaluating Terminal Agents on Multimedia-File Tasks
- arxiv url: http://arxiv.org/abs/2605.10966v1
- Date: Fri, 08 May 2026 10:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.263525
- Title: MMTB: Evaluating Terminal Agents on Multimedia-File Tasks
- Title(参考訳): MMTB:マルチメディアファイルタスクにおける端末エージェントの評価
- Authors: Chiyeong Heo, Jaechang Kim, Junhyuk Kwon, Hoyoung Kim, Dongmin Park, Jonghyun Lee, Jungseul Ok,
- Abstract要約: 多くの実世界のベンチマークでは、実践者が直接オーディオやビデオファイルを扱う必要がある。
マルチメディアファイルタスクにおける端末エージェントの評価には,MultiMedia-TerminalBench(MMTB)を導入する。
本稿では,端末エージェントの音声・映像認識機能を備えたマルチメディアハーネスであるTerminus-MMを提案する。
- 参考スコア(独自算出の注目度): 30.39677708429707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Terminals provide a powerful interface for AI agents by exposing diverse tools for automating complex workflows, yet existing terminal-agent benchmarks largely focus on tasks grounded in text, code, and structured files. However, many real-world workflows require practitioners to work directly with audio and video files. Working with such multimedia files calls for terminal agents not only to understand multimedia content, but also to convert auditory and visual evidence across related files into appropriate actions. To evaluate terminal agents on multimedia-file tasks, we introduce MultiMedia-TerminalBench (MMTB), a benchmark of 105 tasks across 5 meta-categories where terminal agents directly operate with audio and video files. Alongside MMTB, we propose Terminus-MM, a multimedia harness that extends Terminus-KIRA with audio and video perception for terminal agents. Together, MMTB and Terminus-MM support a controlled study of multimedia terminal agents, revealing how different forms of multimedia access shape task outcomes and determine which evidence agents rely on to construct executable terminal workflows. MMTB media and metadata are released at https://huggingface.co/datasets/mm-tbench/mmtb-media
- Abstract(参考訳): ターミナルは複雑なワークフローを自動化する多様なツールを公開することによって、AIエージェントの強力なインターフェースを提供するが、既存のターミナルエージェントベンチマークは、主にテキスト、コード、構造化ファイルで構築されたタスクに焦点を当てている。
しかし、現実のワークフローの多くは、実践者が直接オーディオやビデオファイルを扱う必要がある。
このようなマルチメディアファイルを扱う場合、端末エージェントはマルチメディアコンテンツを理解するだけでなく、関連するファイル間で聴覚や視覚的証拠を適切なアクションに変換する必要がある。
マルチメディア・ターミナルベンチ(MMTB, MultiMedia-TerminalBench)は, 端末エージェントが音声やビデオファイルを直接操作する5つのメタカテゴリにまたがる105タスクのベンチマークである。
MMTBと並行して,端末エージェントの音声・映像認識機能を備えたマルチメディアハーネスであるTerminus-MMを提案する。
MMTBとTerminus-MMはマルチメディア端末エージェントの制御された研究をサポートし、マルチメディアアクセス形態の異なる形態のタスクがどのような結果をもたらすかを明らかにし、実行可能端末ワークフローの構築にどのエビデンスエージェントが依存しているかを決定する。
MMTBメディアとメタデータはhttps://huggingface.co/datasets/mm-tbench/mmtb-mediaで公開される
関連論文リスト
- A Versatile Multimodal Agent for Multimedia Content Generation [66.86040734610073]
複雑なコンテンツ作成タスクの自動化を目的としたMultiMedia-Agentを提案する。
エージェントシステムには、データ生成パイプライン、コンテンツ作成のためのツールライブラリ、嗜好アライメントを評価するためのメトリクスセットが含まれている。
論文 参考訳(メタデータ) (2026-01-06T18:49:47Z) - LongVideoAgent: Multi-Agent Reasoning with Long Videos [69.28914905197426]
本稿では,主LLMが問題関連セグメントの局所化のために接地エージェントをコーディネートするマルチエージェントフレームワークと,対象とするテキスト観察を抽出する視覚エージェントを提案する。
マスターエージェントは、ステップ制限で計画し、簡潔で正確で効率的なマルチエージェント協調を促進するために強化学習で訓練されている。
テレビQA/TVQA+から集約したエピソードレベルのデータセットであるLongTVQAとLongTVQA+では,マルチエージェントシステムは強力な非エージェントベースラインよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-12-23T18:59:49Z) - M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark [45.755057449698825]
M3-Benchは、Model Context Protocolの下で使用されるマルチモーダルツールを評価するための最初のベンチマークである。
我々は,各ツールコールをシリアライズし,文エンコーダにシグネチャを埋め込む類似性駆動アライメントを導入し,類似性に富んだハンガリー語マッチングを実行する。
ベンチマークは28のサーバと231のツールにまたがっており、人間による検証でExecutor & Judgeパイプラインを通じてキュレートされた標準化されたトラジェクトリを提供する。
論文 参考訳(メタデータ) (2025-11-21T19:27:02Z) - UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist [107.04196084992907]
次世代ビデオジェネラリストのためのオールニ対応マルチエージェントフレームワークUniVAを紹介する。
UniVAはPlan-and-Actのデュアルエージェントアーキテクチャを採用しており、高度に自動化されプロアクティブなワークフローを駆動している。
また、理解、編集、セグメンテーション、生成にまたがるマルチステップビデオタスクのベンチマークスイートUniVA-Benchについても紹介する。
論文 参考訳(メタデータ) (2025-11-11T17:58:13Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction [35.285466934451904]
本稿では,マルチモーダル方式でコンピュータと対話できる汎用エージェントであるtextscInfantAgent-Nextを紹介する。
ひとつの大きなモデルに複雑に構築するか、モジュール性のみを提供する既存のアプローチとは異なり、当社のエージェントはツールベースと純粋な視覚エージェントを統合しています。
論文 参考訳(メタデータ) (2025-05-16T05:43:27Z) - MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding [40.52017994491893]
MDocAgentは、テキストとイメージの両方を活用する新しいRAGおよびマルチエージェントフレームワークである。
本システムでは, 汎用エージェント, クリティカルエージェント, テキストエージェント, 画像エージェント, 要約エージェントの5種類の特殊エージェントを用いる。
5つのベンチマークの予備実験では、MDocAgentの有効性が示され、平均12.1%の改善が達成された。
論文 参考訳(メタデータ) (2025-03-18T06:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。