論文の概要: IW-Bench: Evaluating Large Multimodal Models for Converting Image-to-Web
- arxiv url: http://arxiv.org/abs/2409.18980v1
- Date: Sat, 14 Sep 2024 05:38:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 05:10:43.477011
- Title: IW-Bench: Evaluating Large Multimodal Models for Converting Image-to-Web
- Title(参考訳): IW-Bench:画像からWebへの変換のための大規模マルチモーダルモデルの評価
- Authors: Hongcheng Guo, Wei Zhang, Junhao Chen, Yaonan Gu, Jian Yang, Junjia Du, Binyuan Hui, Tianyu Liu, Jianxin Ma, Chang Zhou, Zhoujun Li,
- Abstract要約: 我々は、画像と対応するWebコード(IW-Bench)のベンチマークをキュレートし、調整した。
本稿では、文書オブジェクトモデル(DOM)ツリーを解析することにより、要素の完全性をテストする要素精度を提案する。
また、性能向上のために5ホップのマルチモーダル・チェーン・オブ・ソート・プロンプティングも設計しています。
- 参考スコア(独自算出の注目度): 61.96082780724042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently advancements in large multimodal models have led to significant strides in image comprehension capabilities. Despite these advancements, there is a lack of the robust benchmark specifically for assessing the Image-to-Web conversion proficiency of these large models. Primarily, it is essential to ensure the integrity of the web elements generated. These elements comprise visible and invisible categories. Previous evaluation methods (e.g., BLEU) are notably susceptible to significant alterations due to the presence of invisible elements in Web. Furthermore, it is crucial to measure the layout information of web pages, referring to the positional relationships between elements, which is overlooked by previous work. To address challenges, we have curated and aligned a benchmark of images and corresponding web codes (IW-Bench). Specifically, we propose the Element Accuracy, which tests the completeness of the elements by parsing the Document Object Model (DOM) tree. Layout Accuracy is also proposed to analyze the positional relationships of elements by converting DOM tree into a common subsequence. Besides, we design a five-hop multimodal Chain-of-Thought Prompting for better performance, which contains five hop: 1) SoM prompt injection. 2) Inferring Elements. 3) Inferring Layout. 4) Inferring Web code. 5) Reflection. Our benchmark comprises 1200 pairs of images and web codes with varying levels of difficulty. We have conducted extensive experiments on existing large multimodal models, offering insights into their performance and areas for improvement in image-to-web domain.
- Abstract(参考訳): 近年,大規模マルチモーダルモデルの進歩により,画像理解能力が著しく向上している。
これらの進歩にもかかわらず、画像からWebへの変換能力を評価するための堅牢なベンチマークが欠如している。
主に、生成されたWeb要素の整合性を保証することが不可欠である。
これらの要素は可視圏と可視圏から構成される。
従来の評価手法(例えばBLEU)は、Webに目に見えない要素が存在するため、顕著な変化を受けやすい。
さらに,従来見過ごされていた要素間の位置関係を参考に,Webページのレイアウト情報を計測することが重要である。
課題に対処するため、画像と対応するWebコード(IW-Bench)のベンチマークをキュレートし、調整しました。
具体的には、文書オブジェクトモデル(DOM)ツリーを解析することにより、要素の完全性をテストする要素精度を提案する。
また、DOMツリーを共通のサブシーケンスに変換することで、要素の位置関係を分析するためにレイアウト精度も提案されている。
さらに、5ホップのマルチモーダルチェイン・オブ・サード・プロンプティング(Chain-of-Thought Prompting)も設計しました。
1) SoM 即発注射。
2)要素の推測。
3)レイアウトを推測する。
4) Web コードの参照。
5) 反射。
私たちのベンチマークでは、1200対のイメージと、さまざまなレベルの難易度を持つWebコードで構成されています。
我々は、既存の大規模マルチモーダルモデルに関する広範な実験を行い、その性能と領域の洞察を提供し、画像・ウェブ領域の改善を図っている。
関連論文リスト
- Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - The Impact of Element Ordering on LM Agent Performance [25.738019870722482]
ウェブおよびデスクトップ環境における各種要素順序付け手法の影響について検討する。
我々は, 画素のみの環境において, 次元の減少が実効的な順序付けをもたらすことを見出した。
本手法は,従来の最先端技術と比較して平均2倍以上のタスクを完了させる。
論文 参考訳(メタデータ) (2024-09-18T16:04:10Z) - WebQuest: A Benchmark for Multimodal QA on Web Page Sequences [10.008284460456107]
WebQuestは、複数のWebページにわたる推論を必要とする、複数ページの質問回答データセットである。
本データセットは,多くのWebページから情報抽出,マルチモーダル検索,および情報の合成を評価する。
我々は、GPT-4V、Gemini Flash、Claude 3、InstructBLIP、PaliGemmaなどのオープンソースモデルなど、主要なプロプライエタリなマルチモーダルモデルを評価します。
論文 参考訳(メタデータ) (2024-09-06T18:44:25Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Hierarchical Multimodal Pre-training for Visually Rich Webpage
Understanding [22.00873805952277]
WebLMは、WebページにおけるHTMLの構造的モダリティとテキストのみをモデリングする制限に対処するために設計されたマルチモーダル事前学習ネットワークである。
本稿では,テキスト,構造,画像モダリティ間の相互作用を効果的にモデル化するための事前学習タスクを提案する。
実験の結果、事前学習されたWebLMは、いくつかのWebページ理解タスクにおいて、従来の最先端の事前学習モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-02-28T11:50:36Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - Prototype Mixture Models for Few-shot Semantic Segmentation [50.866870384596446]
サポートやクエリ画像内のオブジェクトが外観やポーズで大きく異なる可能性があるため、ショットのセグメンテーションは難しい。
プロトタイプベースセマンティック表現を強制するために,多種多様な画像領域と複数のプロトタイプとの相関関係を持つプロトタイプ混合モデル(PMMs)を提案する。
PMMはMS-COCOの5ショットセグメンテーション性能を最大5.82%改善し、モデルサイズと推論速度の適度なコストに留まった。
論文 参考訳(メタデータ) (2020-08-10T04:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。