論文の概要: MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data
- arxiv url: http://arxiv.org/abs/2603.25319v1
- Date: Thu, 26 Mar 2026 11:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.256379
- Title: MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data
- Title(参考訳): MACRO:構造化長コンテキストデータによるマルチ参照画像生成の改善
- Authors: Zhekai Chen, Yuqing Wang, Manyuan Zhang, Xihui Liu,
- Abstract要約: MacroDataは、最大10の参照画像を含む400Kサンプルの大規模なデータセットである。
MacroBenchは、グレードされたタスク次元と入力スケールにわたる生成的コヒーレンスを評価する4,000のサンプルのベンチマークである。
- 参考スコア(独自算出の注目度): 45.93525872415689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating images conditioned on multiple visual references is critical for real-world applications such as multi-subject composition, narrative illustration, and novel view synthesis, yet current models suffer from severe performance degradation as the number of input references grows. We identify the root cause as a fundamental data bottleneck: existing datasets are dominated by single- or few-reference pairs and lack the structured, long-context supervision needed to learn dense inter-reference dependencies. To address this, we introduce MacroData, a large-scale dataset of 400K samples, each containing up to 10 reference images, systematically organized across four complementary dimensions -- Customization, Illustration, Spatial reasoning, and Temporal dynamics -- to provide comprehensive coverage of the multi-reference generation space. Recognizing the concurrent absence of standardized evaluation protocols, we further propose MacroBench, a benchmark of 4,000 samples that assesses generative coherence across graded task dimensions and input scales. Extensive experiments show that fine-tuning on MacroData yields substantial improvements in multi-reference generation, and ablation studies further reveal synergistic benefits of cross-task co-training and effective strategies for handling long-context complexity. The dataset and benchmark will be publicly released.
- Abstract(参考訳): 複数のビジュアル参照に条件付けされた画像を生成することは、マルチオブジェクト合成、物語のイラスト、新しいビュー合成といった現実世界の応用にとって重要であるが、現在のモデルでは、入力参照数が増加するにつれて、大幅なパフォーマンス劣化に悩まされている。
既存のデータセットは単一あるいは少数参照のペアによって支配されており、厳密な参照間の依存関係を学習するために必要な構造化された長期コンテキストの監視が欠如している。
これを解決するために,最大10個の参照イメージを含む400Kサンプルの大規模なデータセットであるMacroDataを紹介した。
さらに, 標準化された評価プロトコルの欠如を認識し, 次数付きタスク次元と入力尺度間の生成的コヒーレンスを評価する4,000個のサンプルのベンチマークであるマクロベンチを提案する。
大規模な実験により、マクロデータの微調整はマルチ参照生成を大幅に改善することを示し、アブレーション研究により、クロスタスクコトレーニングの相乗効果と、長期コンテキストの複雑さを扱う効果的な戦略が明らかにされた。
データセットとベンチマークが公開される。
関連論文リスト
- DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。
モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。
DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文 参考訳(メタデータ) (2026-02-11T12:51:10Z) - Joint Multi-Condition Representation Modelling via Matrix Factorisation for Visual Place Recognition [14.020214078011515]
マルチ参照視覚的位置認識(VPR)に対処し、様々な条件下でキャプチャされた参照セットを用いて、ローカライゼーション性能を向上させる。
本稿では,複数の参照記述子を行列分解から基底表現へ変換する,学習不要で非依存な手法を提案する。
マルチ・レファレンス・データでは,Recall@1が単一参照よりも最大18%向上し,外観や視点の変化に対してマルチ・レファレンス・ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-20T16:50:03Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - CFVBench: A Comprehensive Video Benchmark for Fine-grained Multimodal Retrieval-Augmented Generation [29.58444236508143]
MRAG(Multimodal Retrieval-Augmented Generation)により、MLLM(Large Language Models)は、外部のマルチモーダルエビデンスによる応答を生成することができる。
既存のベンチマークは、モダリティのカバレッジとフォーマットの多様性に制限されている。
CFVBenchは599の公開ビデオから構築された大規模で手動で検証されたベンチマークである。
論文 参考訳(メタデータ) (2025-10-10T11:05:37Z) - MRGSEM-Sum: An Unsupervised Multi-document Summarization Framework based on Multi-Relational Graphs and Structural Entropy Minimization [15.596156608713347]
MRGSEM-Sumはマルチリレーショナルグラフと構造エントロピー最小化に基づく教師なしマルチドキュメント要約フレームワークである。
本稿では,各クラスタを蒸留し,簡潔かつ情報的な要約を生成する位置認識圧縮機構を提案する。
論文 参考訳(メタデータ) (2025-07-31T10:14:03Z) - Time-RA: Towards Time Series Reasoning for Anomaly with LLM Feedback [55.284574165467525]
Time-RA(Time-Series Reasoning for Anomaly)は、時系列異常検出を生成的、推論集約的なタスクに変換する。
また,実世界のマルチモーダルベンチマークデータセットであるRATs40Kを導入する。
論文 参考訳(メタデータ) (2025-07-20T18:02:50Z) - Deep Incomplete Multi-view Clustering with Distribution Dual-Consistency Recovery Guidance [69.58609684008964]
本稿では,distriBution dUal-Consistency Recovery Guidanceを用いた不完全なマルチビュークラスタリング手法であるBURGを提案する。
我々は,各サンプルを別カテゴリとして扱い,欠落したビューの分布空間を予測するために,クロスビュー配信を行う。
信頼性の高いカテゴリ情報の欠如を補うために,隣り合った整合性によって案内されるビュー内アライメントと,プロトタイプ的な整合性によって案内されるクロスビューアライメントを含む二重整合性ガイド付きリカバリ戦略を設計する。
論文 参考訳(メタデータ) (2025-03-14T02:27:45Z) - Efficient and Effective Deep Multi-view Subspace Clustering [9.6753782215283]
E$2$MVSC(Efficient and Effective Deep Multi-View Subspace Clustering)と呼ばれる新しいディープフレームワークを提案する。
パラメータ化されたFC層の代わりに、より計算効率のよいサンプル数からネットワークパラメータスケールを分離するRelation-Metric Netを設計する。
E$2$MVSCは既存のメソッドに匹敵する結果を出し、様々なタイプのマルチビューデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-15T03:08:25Z) - PIETS: Parallelised Irregularity Encoders for Forecasting with
Heterogeneous Time-Series [5.911865723926626]
マルチソースデータセットの不均一性と不規則性は時系列解析において重要な課題となる。
本研究では、異種時系列をモデル化するための新しいアーキテクチャ、PIETSを設計する。
PIETSは異種時間データを効果的にモデル化し、予測タスクにおける他の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-09-30T20:01:19Z) - Generative Partial Multi-View Clustering [133.36721417531734]
本稿では,不完全なマルチビュー問題に対処するため,GP-MVCと呼ばれる生成的部分的マルチビュークラスタリングモデルを提案する。
まず、マルチビューエンコーダネットワークをトレーニングして、一般的な低次元表現を学習し、次にクラスタリング層を使用して複数のビューをまたいだ一貫したクラスタ構造をキャプチャする。
第2に、他のビューが与える共有表現に基づいて、1つのビュー条件の欠落データを生成するために、ビュー固有の生成敵ネットワークを開発する。
論文 参考訳(メタデータ) (2020-03-29T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。