Fugu-MT 論文翻訳(概要): Scaling Video Understanding via Compact Latent Multi-Agent Collaboration

論文の概要: Scaling Video Understanding via Compact Latent Multi-Agent Collaboration

arxiv url: http://arxiv.org/abs/2605.00444v1
Date: Fri, 01 May 2026 06:24:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-04 17:43:28.873525
Title: Scaling Video Understanding via Compact Latent Multi-Agent Collaboration
Title（参考訳）: コンパクトなマルチエージェントコラボレーションによるビデオ理解のスケールアップ
Authors: Kerui Chen, Jinglu Wang, Jianrong Zhang, Ming Li, Yan Lu, Hehe Fan,
Abstract要約: 本稿では,グローバルなビデオの複雑さから,エージェントごとの認識予算を分離するエンドツーエンドのマルチエージェントコラボレーションフレームワークを提案する。我々は、MACFが、同じ予算制約の下で、最先端のMLLMやマルチエージェントシステムよりも一貫して優れていることを示す。
参考スコア（独自算出の注目度）: 42.74404806675165
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-modal large language models (MLLMs) advance vision language understanding but face inherent limitations in long-video tasks due to bounded perception context budgets. Existing agentic methods mitigate this via rule-based preprocessing, yet often suffer from information loss, high cost, and reliance on textual intermediates. We propose MACF, an end-to-end Multi-Agent Collaboration Framework that decouples per-agent perception budgets from global video complexity, enabling scalable video understanding while preserving visual fidelity. MACF partitions videos into segments for locally budgeted agents and enables holistic reasoning via an agent-native latent communication protocol. Each agent encodes partial observations into compact, task-sufficient tokens in a shared embedding space, allowing efficient and information-preserving collaboration by a central coordinator. We introduce a curriculum training strategy that progressively enforces semantic alignment, evidence summarization, and cross-agent coordination. Extensive experiments on diverse video understanding benchmarks show that MACF consistently outperforms state-of-the-art MLLMs and multi-agent systems under identical budget constraints, demonstrating the effectiveness of our latent collaboration for scalable video understanding.
Abstract（参考訳）: MLLM(Multi-modal large language model)は視覚言語理解を先導するが、コンテキスト境界による長ビデオタスクには固有の制限がある。既存のエージェント手法はルールベースの事前処理によってこれを緩和するが、情報損失、高コスト、テキスト中間体への依存に悩まされることが多い。視覚的忠実さを保ちながらスケーラブルな映像理解を実現するため,マルチエージェント協調フレームワークMACFを提案する。 MACFは、動画をローカルに予算されたエージェントのセグメントに分割し、エージェントネイティブの潜伏通信プロトコルを介して全体論的推論を可能にする。各エージェントは、共有埋め込み空間内のコンパクトでタスクに満足なトークンに部分的観察を符号化し、中央コーディネータによる効率的かつ情報保存的な協調を可能にする。本稿では, セマンティックアライメント, 証拠要約, エージェント間アライメントを段階的に実施するカリキュラムトレーニング戦略を導入する。多様なビデオ理解ベンチマークに関する大規模な実験により、MACFは最先端のMLLMやマルチエージェントシステムと同一の予算制約下で一貫して優れており、スケーラブルなビデオ理解のための潜在的コラボレーションの有効性を実証している。

関連論文リスト

Beyond End-to-End Video Models: An LLM-Based Multi-Agent System for Educational Video Generation [15.004606775581356]
LAVESは、教育問題から高品質な指導ビデオを生成する階層型マルチエージェントシステムである。大規模なデプロイメントでは、LAVESは1日に100万ビデオを超えるスループットを実現し、95%以上のコスト削減を実現している。
論文参考訳（メタデータ） (2026-02-12T10:14:36Z)
Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS) は、テキストクエリに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。 Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
論文参考訳（メタデータ） (2026-02-03T14:48:12Z)
GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory [59.869552603264076]
GCAgent(Global-Context-Aware Agent)は,広義の長ビデオ理解を実現する新しいフレームワークである。これは、イベントとその因果関係と時間的関係を、簡潔で組織化されたコンテキストに構造的にモデル化するものです。実験により、GCAgentは、強力なMLLMベースライン上でのVideo-MME Long分割において、最大23.5%の精度向上を実現した。
論文参考訳（メタデータ） (2025-11-15T04:29:00Z)
FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文参考訳（メタデータ） (2025-06-20T07:46:40Z)
Layered Chain-of-Thought Prompting for Multi-Agent LLM Systems: A Comprehensive Approach to Explainable Large Language Models [0.0]
提案するLayered Chain-of-Thought (Layered-CoT) Promptingは,推論プロセスを複数の層に体系的に分割する新しいフレームワークである。医療トリアージ、財務リスク評価、アジャイルエンジニアリングの3つのシナリオを紹介し、透明性、正確性、ユーザエンゲージメントの観点から、Layered-CoTがバニラCoTをどのように上回っているかを示します。
論文参考訳（メタデータ） (2025-01-29T13:21:09Z)
Collaborative Multi-Agent Video Fast-Forwarding [30.843484383185473]
分散および集中型設定における協調的マルチエージェントビデオ高速転送フレームワークを2つ開発する。これらのフレームワークでは、各エージェントは、複数の戦略に基づいて、調整可能なペースで、ビデオフレームを選択的に処理またはスキップすることができる。文献の他のアプローチと比較して、フレームワークは重要なフレームのカバレッジを向上し、各エージェントで処理されるフレームの数を著しく削減する。
論文参考訳（メタデータ） (2023-05-27T20:12:19Z)
SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文参考訳（メタデータ） (2023-05-26T15:13:44Z)
See More, Know More: Unsupervised Video Object Segmentation with Co-Attention Siamese Networks [184.4379622593225]
教師なしビデオオブジェクトセグメンテーションタスクに対処するため,CO-attention Siamese Network (COSNet) と呼ばれる新しいネットワークを導入する。我々は,ビデオフレーム間の固有相関の重要性を強調し,グローバルなコアテンション機構を取り入れた。本稿では、ビデオ内のリッチなコンテキストをマイニングするために、異なるコアテンションの変種を導出する、統一的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文参考訳（メタデータ） (2020-01-19T11:10:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。