論文の概要: WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation
- arxiv url: http://arxiv.org/abs/2511.11434v1
- Date: Fri, 14 Nov 2025 16:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.70549
- Title: WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation
- Title(参考訳): WEAVE: コンテキスト内インターリーブの理解と生成の解放とベンチマーク
- Authors: Wei Chow, Jiachun Pan, Yongyuan Liang, Mingze Zhou, Xue Song, Liyu Jia, Saining Zhang, Siliang Tang, Juncheng Li, Fengda Zhang, Weijia Wu, Hanwang Zhang, Tat-Seng Chua,
- Abstract要約: We present WEAVE, the first suite for in-context interleaved cross-modality comprehension and generation。
WeAVE-100kは、370Kのダイアログターンと500Kイメージにまたがる100Kのインターリーブサンプルの大規模なデータセットである。
WeAVEBenchは480の画像に基づいた100のタスクを備えた人手によるベンチマークである。
- 参考スコア(独自算出の注目度): 98.47375190901447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in unified multimodal models (UMMs) have enabled impressive progress in visual comprehension and generation. However, existing datasets and benchmarks focus primarily on single-turn interactions, failing to capture the multi-turn, context-dependent nature of real-world image creation and editing. To address this gap, we present WEAVE, the first suite for in-context interleaved cross-modality comprehension and generation. Our suite consists of two complementary parts. WEAVE-100k is a large-scale dataset of 100K interleaved samples spanning over 370K dialogue turns and 500K images, covering comprehension, editing, and generation tasks that require reasoning over historical context. WEAVEBench is a human-annotated benchmark with 100 tasks based on 480 images, featuring a hybrid VLM judger evaluation framework based on both the reference image and the combination of the original image with editing instructions that assesses models' abilities in multi-turn generation, visual memory, and world-knowledge reasoning across diverse domains. Experiments demonstrate that training on WEAVE-100k enables vision comprehension, image editing, and comprehension-generation collaboration capabilities. Furthermore, it facilitates UMMs to develop emergent visual-memory capabilities, while extensive evaluations on WEAVEBench expose the persistent limitations and challenges of current approaches in multi-turn, context-aware image generation and editing. We believe WEAVE provides a view and foundation for studying in-context interleaved comprehension and generation for multi-modal community.
- Abstract(参考訳): 統合マルチモーダルモデル(UMM)の最近の進歩は、視覚的理解と生成の著しい進歩を可能にしている。
しかし、既存のデータセットとベンチマークは、主にシングルターンインタラクションに焦点を当てており、実世界の画像作成と編集のマルチターン、コンテキスト依存の性質を捉えていない。
このギャップに対処するため、本論文では、コンテキスト内インターリーブによる相互モダリティ理解と生成のための最初のスイートであるWAEAVEを紹介する。
私たちのスイートは2つの補完部分で構成されています。
WEAVE-100kは、370Kの対話ターンと500Kイメージにまたがる100Kのインターリーブされた大規模なデータセットである。
WEAVEBenchは、480のイメージに基づく100のタスクからなる人為的注釈付きベンチマークであり、参照画像と元のイメージの組み合わせをベースとしたハイブリッドVLM判定フレームワークと、多ターン生成、ビジュアルメモリ、およびさまざまな領域にわたる世界知識推論におけるモデルの能力を評価する編集命令を特徴とする。
WEAVE-100kでのトレーニングにより、視覚理解、画像編集、理解世代コラボレーション機能を実現することが実証された。
さらに、UMMが創発的な視覚記憶機能を開発するのを促進する一方で、WAEAVEBenchに関する広範な評価は、マルチターン、コンテキスト対応の画像生成および編集における現在のアプローチの永続的な制限と課題を明らかにしている。
We believe WEAVE provides a view and foundation for study in-context interleaved comprehension and generation for multi-modal community。
関連論文リスト
- Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning [92.57052246970254]
視覚的理解と生成の協調的共進化を可能にすることを提案する。
教師付き微調整は、真のCoTを生成する基礎的な能力を持つMLLMを指導する。
画像生成におけるAhaモーメントを解き、テキスト・ツー・イメージタスクから統合画像生成へMLLMを前進させる。
論文 参考訳(メタデータ) (2025-06-02T09:39:28Z) - OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation [59.53678957969471]
MLLM(Multimodal Large Language Models)は視覚的理解と生成に大きく貢献している。
インターリーブされた画像テキストコンテンツを生成することは、依然として課題である。
Openingは56の現実世界のタスクにわたる5,400の高品質なヒューマンアノテートインスタンスからなるベンチマークである。
IntJudgeはオープンなマルチモーダル生成手法を評価するための判断モデルである。
論文 参考訳(メタデータ) (2024-11-27T16:39:04Z) - Interleaved Scene Graphs for Interleaved Text-and-Image Generation Assessment [53.45813302866466]
我々は、インターリーブされたテキスト・画像生成のための総合的な評価フレームワークISGを提案する。
ISGは、全体性、構造性、ブロックレベル、画像固有性の4つのレベルで反応を評価する。
ISGと組み合わせて、ISG-Benchというベンチマークを導入し、8つのカテゴリと21のサブカテゴリにわたる1,150のサンプルを網羅した。
論文 参考訳(メタデータ) (2024-11-26T07:55:57Z) - Open-World Human-Object Interaction Detection via Multi-modal Prompts [26.355054079885463]
MP-HOIは多モードのPromptベースの強力なHOI検出器であり、オープンセットの一般化のためのテキスト記述と、説明の曖昧さを扱う視覚的見本の両方を活用するように設計されている。
MP-HOIは一般のHOI検出器として機能し、既存の専門家モデルのHOI語彙を30倍以上上回った。
論文 参考訳(メタデータ) (2024-06-11T13:01:45Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - Generative Modeling for Multi-task Visual Learning [40.96212750592383]
様々な視覚的認知タスクにおいて有用な共有生成モデルを学ぶという,新しい問題を考える。
本稿では,識別型マルチタスクネットワークと生成ネットワークを結合して,汎用的なマルチタスク指向生成モデリングフレームワークを提案する。
我々のフレームワークは、最先端のマルチタスクアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-06-25T03:42:59Z) - TVDIM: Enhancing Image Self-Supervised Pretraining via Noisy Text Data [13.68491474904529]
テキスト強化型ビジュアルディープインフォマティクス(TVDIM)を提案する。
自己教師型学習の中核となる考え方は、複数の視点から抽出された特徴間の相互情報の最大化である。
TVDIMは、同じ画像の集合を処理する際に、従来の視覚的自己監督手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-03T12:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。