論文の概要: Image2Struct: Benchmarking Structure Extraction for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2410.22456v1
- Date: Tue, 29 Oct 2024 18:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:28:41.533032
- Title: Image2Struct: Benchmarking Structure Extraction for Vision-Language Models
- Title(参考訳): 画像2構造:視覚言語モデルのためのベンチマーク構造抽出
- Authors: Josselin Somerville Roberts, Tony Lee, Chi Heem Wong, Michihiro Yasunaga, Yifan Mai, Percy Liang,
- Abstract要約: Image2Structは、画像から構造を抽出する際のビジョンピクセルモデル(VLM)を評価するためのベンチマークである。
Image2Structでは、VLMが入力画像から基盤構造を生成するように促される。
そして、構造を描画して出力画像を生成し、入力画像と比較して類似度スコアを生成する。
- 参考スコア(独自算出の注目度): 57.531922659664296
- License:
- Abstract: We introduce Image2Struct, a benchmark to evaluate vision-language models (VLMs) on extracting structure from images. Our benchmark 1) captures real-world use cases, 2) is fully automatic and does not require human judgment, and 3) is based on a renewable stream of fresh data. In Image2Struct, VLMs are prompted to generate the underlying structure (e.g., LaTeX code or HTML) from an input image (e.g., webpage screenshot). The structure is then rendered to produce an output image (e.g., rendered webpage), which is compared against the input image to produce a similarity score. This round-trip evaluation allows us to quantitatively evaluate VLMs on tasks with multiple valid structures. We create a pipeline that downloads fresh data from active online communities upon execution and evaluates the VLMs without human intervention. We introduce three domains (Webpages, LaTeX, and Musical Scores) and use five image metrics (pixel similarity, cosine similarity between the Inception vectors, learned perceptual image patch similarity, structural similarity index measure, and earth mover similarity) that allow efficient and automatic comparison between pairs of images. We evaluate Image2Struct on 14 prominent VLMs and find that scores vary widely, indicating that Image2Struct can differentiate between the performances of different VLMs. Additionally, the best score varies considerably across domains (e.g., 0.402 on sheet music vs. 0.830 on LaTeX equations), indicating that Image2Struct contains tasks of varying difficulty. For transparency, we release the full results at https://crfm.stanford.edu/helm/image2struct/v1.0.1/.
- Abstract(参考訳): 画像から構造を抽出する際の視覚言語モデル(VLM)を評価するベンチマークであるImage2Structを紹介する。
ベンチマーク
1)現実世界のユースケースをキャプチャする。
2)完全自動であり、人的判断を必要としない。
3) 再生可能データストリームに基づく。
Image2Structでは、VLMは入力画像(例えば、Webページのスクリーンショット)から基盤構造(例えば、LaTeXコードまたはHTML)を生成するように促される。
そして、その構造を描画して出力画像(例えば、レンダリングされたウェブページ)を生成し、入力画像と比較して類似度スコアを生成する。
このラウンドトリップ評価により、複数の有効な構造を持つタスクにおいて、VLMを定量的に評価できる。
我々は、実行時にアクティブなオンラインコミュニティから新鮮なデータをダウンロードし、人間の介入なしにVLMを評価するパイプラインを作成します。
3つの領域(Webページ、LaTeX、音楽スコア)を導入し、5つの画像メトリクス(画素類似性、インセプションベクトル間のコサイン類似性、学習された知覚的イメージパッチ類似性、構造的類似度指標、アースモービル類似性)を用いて、画像ペア間の効率的な自動比較を可能にする。
我々は,14の著名なVLM上でのImage2Structを評価し,スコアが広い範囲で異なることを示し,異なるVLMのパフォーマンスを区別できることを示す。
さらに、最高のスコアはドメインによって異なる(例えば、楽譜では0.402、LaTeX方程式では0.830)。
透明性のために、全結果はhttps://crfm.stanford.edu/helm/image2struct/v1.0.1/でリリースします。
関連論文リスト
- VisMin: Visual Minimal-Change Understanding [7.226130826257802]
我々は、textbfVisual textbfMinimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。
VisMinは2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。
CLIPとIdefics2を微調整する大規模なトレーニングデータセットを生成しました。
論文 参考訳(メタデータ) (2024-07-23T18:10:43Z) - Doppelgangers: Learning to Disambiguate Images of Similar Structures [76.61267007774089]
幻像マッチングは、人間が区別することは困難であり、3D再構成アルゴリズムに誤った結果をもたらす可能性がある。
本稿では,視覚的曖昧化に対する学習に基づくアプローチを提案し,イメージペア上でのバイナリ分類タスクとして定式化する。
本手法は, 難易度の高い画像の一致を識別し, SfMパイプラインに統合することにより, 正確な3次元再構成を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-05T17:50:36Z) - Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - Robust Graph Structure Learning over Images via Multiple Statistical
Tests [25.97631995863608]
画像間のグラフを構築する自然な方法は、各画像をノードとして扱い、一対の画像類似性を対応するエッジに重みとして割り当てることである。
画像間の対の類似性は特徴表現のノイズに敏感であり、信頼できないグラフ構造をもたらすことはよく知られている。
各ノードの特徴ベクトルを独立したサンプルとして見ることにより、特徴表現における類似性に基づいて2ノード間のエッジを作成するかどうかを、$it single$statistical testとみなすことができる。
論文 参考訳(メタデータ) (2022-10-08T07:56:13Z) - Bringing Image Scene Structure to Video via Frame-Clip Consistency of
Object Tokens [93.98605636451806]
StructureViTは、トレーニング中にのみ利用可能な少数の画像の構造を利用することで、ビデオモデルを改善する方法を示している。
SViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2022-06-13T17:45:05Z) - L2C: Describing Visual Differences Needs Semantic Understanding of
Individuals [65.87728481187625]
本稿では,2つの画像の意味構造を学習し,それぞれを学習しながら比較するラーニング・トゥ・コンペア・モデルを提案する。
我々は,L2Cが明示的な意味表現と単一イメージのキャプションの比較から得られる利点を実証し,新しいテスト画像対をよりよく一般化することを示した。
論文 参考訳(メタデータ) (2021-02-03T03:44:42Z) - Pyramidal Convolution: Rethinking Convolutional Neural Networks for
Visual Recognition [98.10703825716142]
この研究は、複数のフィルタスケールで入力を処理できるピラミッド畳み込み(PyConv)を導入している。
PyConvをベースとした,画像分類,映像行動分類/認識,オブジェクト検出,意味的画像分割/パーシングの4つの主要なタスクについて,異なるアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-06-20T10:19:29Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。