論文の概要: GEMS: Agent-Native Multimodal Generation with Memory and Skills
- arxiv url: http://arxiv.org/abs/2603.28088v1
- Date: Mon, 30 Mar 2026 06:42:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.264123
- Title: GEMS: Agent-Native Multimodal Generation with Memory and Skills
- Title(参考訳): GEMS: メモリとスキルを備えたエージェントネイティブなマルチモーダル生成
- Authors: Zefeng He, Siyuan Huang, Xiaoye Qu, Yafu Li, Tong Zhu, Yu Cheng, Yang Yang,
- Abstract要約: textbfGEMS (Agent-Native Multimodal textbfGEneration with textbfMemory and textbfSkills) を提案する。
軽量の6BモデルであるZ-Image-Turboは、GenEval2の最先端のNano Banana 2を超越し、元の限界を超えてモデル機能を拡張するためのエージェントハーネスの有効性を実証する。
- 参考スコア(独自算出の注目度): 40.96293554911602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent multimodal generation models have achieved remarkable progress on general-purpose generation tasks, yet continue to struggle with complex instructions and specialized downstream tasks. Inspired by the success of advanced agent frameworks such as Claude Code, we propose \textbf{GEMS} (Agent-Native Multimodal \textbf{GE}neration with \textbf{M}emory and \textbf{S}kills), a framework that pushes beyond the inherent limitations of foundational models on both general and downstream tasks. GEMS is built upon three core components. Agent Loop introduces a structured multi-agent framework that iteratively improves generation quality through closed-loop optimization. Agent Memory provides a persistent, trajectory-level memory that hierarchically stores both factual states and compressed experiential summaries, enabling a global view of the optimization process while reducing redundancy. Agent Skill offers an extensible collection of domain-specific expertise with on-demand loading, allowing the system to effectively handle diverse downstream applications. Across five mainstream tasks and four downstream tasks, evaluated on multiple generative backends, GEMS consistently achieves significant performance gains. Most notably, it enables the lightweight 6B model Z-Image-Turbo to surpass the state-of-the-art Nano Banana 2 on GenEval2, demonstrating the effectiveness of agent harness in extending model capabilities beyond their original limits.
- Abstract(参考訳): 近年のマルチモーダル生成モデルは、汎用的な生成タスクにおいて顕著な進歩を遂げているが、複雑な命令や特殊な下流タスクに悩まされ続けている。
Claude Codeのような先進的なエージェントフレームワークの成功に触発されて、一般的なタスクと下流タスクの両方において基礎モデルの本質的な制限を超えて進むフレームワークである \textbf{GEMS} (Agent-Native Multimodal \textbf{GE}neration with \textbf{M}emory と \textbf{S}kills)を提案する。
GEMSは3つのコアコンポーネント上に構築されている。
Agent Loopはクローズドループ最適化によって生成品質を反復的に改善する構造化マルチエージェントフレームワークを導入している。
Agent Memoryは、実際の状態と圧縮された経験的要約の両方を階層的に保存する永続的トラジェクトリレベルのメモリを提供し、冗長性を低減しつつ最適化プロセスのグローバルなビューを可能にする。
Agent Skillは、オンデマンドのロードに関する、ドメイン固有の専門知識の拡張可能なコレクションを提供する。
複数の生成バックエンドで評価された5つのメインストリームタスクと4つのダウンストリームタスクに対して、GEMSは一貫して大きなパフォーマンス向上を実現している。
中でも注目すべきは、軽量の6BモデルであるZ-Image-Turboが、GenEval2の最先端技術であるNano Banana 2を超越し、モデル能力を元の限界を超えて拡張するエージェントハーネスの有効性を示すことだ。
関連論文リスト
- GenAgent: Scaling Text-to-Image Generation via Agentic Multimodal Reasoning [54.42973725693]
我々は,エージェント型マルチモーダルモデルを用いて,視覚的理解と生成を統一したGenAgentを導入する。
GenAgentはGenEval++とWISEのベースジェネレータ(FLUX.1-dev)のパフォーマンスを大幅に向上させる。
本フレームワークは,1) 様々な機能を持つジェネレータへのクロスツール一般化,2) インタラクションラウンド間で一貫した改善を伴うテスト時間スケーリング,3) タスクに自動的に適応するタスク適応推論の3つの重要な特性を示す。
論文 参考訳(メタデータ) (2026-01-26T14:49:04Z) - M$^3$Prune: Hierarchical Communication Graph Pruning for Efficient Multi-Modal Multi-Agent Retrieval-Augmented Generation [18.091284320771006]
本稿では,M$3$Prune と呼ばれる新しいマルチモーダルマルチエージェント階層型通信グラフ PRUNing フレームワークを提案する。
当社のフレームワークは,タスクパフォーマンスとトークンオーバーヘッドの最適バランスを達成するために,さまざまなモダリティをまたいだ冗長なエッジを排除します。
本手法はシングルエージェントとロバストマルチエージェントのmRAGシステムにおいて一貫して性能を向上する。
論文 参考訳(メタデータ) (2025-11-25T06:29:13Z) - UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings [70.60608084375691]
我々は、生成的埋め込みの探索の先駆者であり、生成的パラダイム内の埋め込みタスクを統合する。
UME-R1は,2段階のトレーニング戦略からなる汎用なマルチモーダル埋め込みフレームワークである。
ビデオ、画像、ビジュアルドキュメントにまたがる78タスクにわたるMMEB-V2ベンチマークで評価した。
論文 参考訳(メタデータ) (2025-11-01T05:04:23Z) - Hollywood Town: Long-Video Generation via Cross-Modal Multi-Agent Orchestration [73.65102758687289]
本研究は,マルチエージェントコラボレーションを改善するための3つのイノベーションを紹介する。
まず、長いビデオ生成のための階層型グラフベースのマルチエージェントフレームワークであるOmniAgentを提案する。
第2に,文脈工学にヒントを得たハイパーグラフノードを提案する。
論文 参考訳(メタデータ) (2025-10-25T20:34:18Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Agentic Neural Networks: Self-Evolving Multi-Agent Systems via Textual Backpropagation [29.45297422127962]
階層型ニューラルネットワークアーキテクチャとしてマルチエージェントコラボレーションを概念化するフレームワークを提案する。
この設計では、各エージェントはノードとして動作し、各レイヤは特定のサブタスクに焦点を当てた「チーム」を形成する。
この結果から,ANNはマルチエージェントシステムのためのスケーラブルでデータ駆動型フレームワークであることがわかった。
論文 参考訳(メタデータ) (2025-06-10T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。