論文の概要: IsoBench: Benchmarking Multimodal Foundation Models on Isomorphic Representations
- arxiv url: http://arxiv.org/abs/2404.01266v3
- Date: Sun, 18 Aug 2024 23:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 03:08:08.939312
- Title: IsoBench: Benchmarking Multimodal Foundation Models on Isomorphic Representations
- Title(参考訳): IsoBench: 同型表現に関するマルチモーダル基礎モデルのベンチマーク
- Authors: Deqing Fu, Ruohao Guo, Ghazal Khalighinejad, Ollie Liu, Bhuwan Dhingra, Dani Yogatama, Robin Jia, Willie Neiswanger,
- Abstract要約: 本稿では,数学,科学,アルゴリズム,ゲームという4つの主要分野の問題を含むベンチマークデータセットを提案する。
IsoBenchは、表現形式に起因するパフォーマンスギャップを診断するために、きめ細かいフィードバックを提供する。
本稿では,2つのプロンプト技術, $textitIsoCombination$ と $textitIsoScratchPad$ を提案する。
- 参考スコア(独自算出の注目度): 47.133759061510986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current foundation models exhibit impressive capabilities when prompted either with text only or with both image and text inputs. But do their capabilities change depending on the input modality? In this work, we propose $\textbf{IsoBench}$, a benchmark dataset containing problems from four major areas: math, science, algorithms, and games. Each example is presented with multiple $\textbf{isomorphic representations}$ of inputs, such as visual, textual, and mathematical presentations. IsoBench provides fine-grained feedback to diagnose performance gaps caused by the form of the representation. Across various foundation models, we observe that on the same problem, models have a consistent preference towards textual representations. Most prominently, when evaluated on all IsoBench problems, Claude-3 Opus performs 28.7 points worse when provided with images instead of text; similarly, GPT-4 Turbo is 18.7 points worse and Gemini Pro is 14.9 points worse. Finally, we present two prompting techniques, $\textit{IsoCombination}$ and $\textit{IsoScratchPad}$, which improve model performance by considering combinations of, and translations between, different input representations.
- Abstract(参考訳): 現在の基礎モデルは、テキストのみ、または画像入力とテキスト入力の両方で、印象的な機能を示している。
しかし、それらの能力は入力のモダリティによって変わりますか?
本研究では,数学,科学,アルゴリズム,ゲームという4つの主要分野の問題を含むベンチマークデータセットである$\textbf{IsoBench}$を提案する。
各例には複数の$\textbf{isomorphic representations}$の入力、例えば視覚、テキスト、数学的プレゼンテーションが提示される。
IsoBenchは、表現形式に起因するパフォーマンスギャップを診断するために、きめ細かいフィードバックを提供する。
様々な基礎モデルにおいて、同じ問題において、モデルがテキスト表現に対して一貫した嗜好を持つことが観察される。
最も顕著な点として、すべてのIsoBench問題で評価すると、Claude-3 Opusはテキストの代わりに画像が提供されると28.7ポイント、GPT-4 Turboは18.7ポイント、Gemini Proは14.9ポイント悪い点がある。
最後に,2つのプロンプト技術, $\textit{IsoCombination}$ と $\textit{IsoScratchPad}$ を提示する。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Image-Text Matching with Multi-View Attention [1.92360022393132]
画像テキストマッチングのための既存の2ストリームモデルでは、検索速度を確保しながら良好な性能を示す。
2ストリーム画像テキストマッチングMVAM(textbfMulti-textbfView textbfAttention textbfModel)のためのマルチビューアテンションアプローチを提案する。
MSCOCO と Flickr30K の実験結果から,提案モデルが既存モデルよりも改良されていることが示された。
論文 参考訳(メタデータ) (2024-02-27T06:11:54Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Boosting Logical Reasoning in Large Language Models through a New
Framework: The Graph of Thought [7.356034193515096]
本稿は、TextitGraph of Thoughts (GoT)と呼ばれる先駆的なプロンプト技術について紹介する。
提案手法は GPT-4 よりも優れ,各タスクに対して 89.7%$, 86%$, 56%$ の精度向上を実現した。
最先端のプロンプトメソッドである textitTree of Thought (ToT) を併用すると,我々のアプローチでは,平均精度が23%,24%,15%向上した。
論文 参考訳(メタデータ) (2023-08-16T18:13:27Z) - Benchmarking Robustness of Multimodal Image-Text Models under
Distribution Shift [50.64474103506595]
本稿では,5つのタスクに対する共通の摂動下での12のオープンソース画像テキストモデルの堅牢性について検討する。
文字レベルの摂動はテキストの最も深刻な分布シフトであり、ズームボケは画像データにとって最も深刻なシフトである。
論文 参考訳(メタデータ) (2022-12-15T18:52:03Z) - Rethinking Generalization in Few-Shot Classification [28.809141478504532]
単一のイメージレベルのアノテーションは、しばしば画像の内容の小さなサブセットを正しく記述するだけである。
本稿では、textitfew-shot Learning$の文脈における意味を詳しく調べる。
我々は、きめ細かいラベルの欠如を克服するため、マスク付き画像モデリングによるネットワークの教師なしトレーニングの最近の進歩の上に構築する。
論文 参考訳(メタデータ) (2022-06-15T03:05:21Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - Deep Multimodal Image-Text Embeddings for Automatic Cross-Media
Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。
このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文 参考訳(メタデータ) (2020-02-23T23:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。