論文の概要: GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation
- arxiv url: http://arxiv.org/abs/2411.18499v2
- Date: Sun, 01 Dec 2024 16:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 13:35:52.388682
- Title: GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation
- Title(参考訳): GATE Opening: オープンエンドのインターリーブ画像テキスト生成を判断するための総合ベンチマーク
- Authors: Pengfei Zhou, Xiaopeng Peng, Jiajun Song, Chuanhao Li, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, Kaipeng Zhang,
- Abstract要約: MLLM(Multimodal Large Language Models)は視覚的理解と生成に大きく貢献している。
インターリーブされた画像テキストコンテンツを生成することは依然として課題であり、統合されたマルチモーダル理解と生成能力が必要である。
Gate Openingは56の現実世界タスクにわたる5,400の高品質な人間アノテーションインスタンスからなるベンチマークである。
IntJudgeはオープンなマルチモーダル生成手法を評価するための判断モデルである。
- 参考スコア(独自算出の注目度): 59.53678957969471
- License:
- Abstract: Multimodal Large Language Models (MLLMs) have made significant strides in visual understanding and generation tasks. However, generating interleaved image-text content remains a challenge, which requires integrated multimodal understanding and generation abilities. While the progress in unified models offers new solutions, existing benchmarks are insufficient for evaluating these methods due to data size and diversity limitations. To bridge this gap, we introduce GATE OpenING (OpenING), a comprehensive benchmark comprising 5,400 high-quality human-annotated instances across 56 real-world tasks. OpenING covers diverse daily scenarios such as travel guide, design, and brainstorming, offering a robust platform for challenging interleaved generation methods. In addition, we present IntJudge, a judge model for evaluating open-ended multimodal generation methods. Trained with a novel data pipeline, our IntJudge achieves an agreement rate of 82. 42% with human judgments, outperforming GPT-based evaluators by 11.34%. Extensive experiments on OpenING reveal that current interleaved generation methods still have substantial room for improvement. Key findings on interleaved image-text generation are further presented to guide the development of next-generation models. The OpenING is open-sourced at https://opening-benchmark.github.io.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は視覚的理解と生成に大きく貢献している。
しかし、インターリーブされた画像テキストコンテンツを生成することは依然として課題であり、統合されたマルチモーダル理解と生成能力が必要である。
統一モデルの進歩は新しい解決策を提供するが、既存のベンチマークはデータサイズと多様性の制限のためにこれらの手法を評価するには不十分である。
このギャップを埋めるために、56の現実世界のタスクにまたがる5,400の高品質なヒューマンアノテートインスタンスからなる包括的なベンチマークであるGATE Opening(Opening)を紹介します。
オープン化は、旅行ガイド、デザイン、ブレインストーミングといった様々な日常シナリオをカバーし、インターリーブドジェネレーション手法に挑戦するための堅牢なプラットフォームを提供する。
さらに,オープンなマルチモーダル生成手法を評価するための判断モデルであるIntJudgeを提案する。
新たなデータパイプラインでトレーニングされたIntJudgeは,契約レート82。
42%が人的判断であり, GPTに基づく評価値の11.34%を上回った。
オープン化に関する大規模な実験により、現在のインターリーブ生成手法には改善の余地がまだ残っていることが判明した。
さらに、次世代モデルの開発を導くために、インターリーブ画像テキスト生成に関する重要な知見が提示される。
OpenINGはhttps://opening-benchmark.github.ioでオープンソース化されている。
関連論文リスト
- What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - Harmonizing Visual Text Comprehension and Generation [31.605599298507293]
視覚テキストの理解と生成に長けた,統一的で汎用的なマルチモーダル生成モデルであるTextHarmonyを提案する。
我々は,多モード生成空間を部分的に分離して,モダリティ特化およびモダリティ非依存のLoRAエキスパートを集約するSlide-LoRAを提案する。
様々なベンチマークによる総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-23T10:11:56Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - Opening up ChatGPT: Tracking openness, transparency, and accountability
in instruction-tuned text generators [0.11470070927586018]
コードのオープン性、トレーニングデータ、モデルウェイト、RLHFデータ、ライセンス、科学文書、アクセス方法の観点からプロジェクトを評価する。
オープンソース”と自称するプロジェクトのリストが急速に伸びているのに対して、多くのプロジェクトは、疑わしい合法性の文書化されていないデータを継承している。
オープン性の度合いは、あらゆる点で公平性と説明責任に関係している。
論文 参考訳(メタデータ) (2023-07-08T07:08:20Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。