Fugu-MT 論文翻訳(概要): VLUE: A Multi-Task Benchmark for Evaluating Vision-Language Models

論文の概要: VLUE: A Multi-Task Benchmark for Evaluating Vision-Language Models

arxiv url: http://arxiv.org/abs/2205.15237v1
Date: Mon, 30 May 2022 16:52:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-31 17:46:57.144129
Title: VLUE: A Multi-Task Benchmark for Evaluating Vision-Language Models
Title（参考訳）: vlue:視覚言語モデル評価のためのマルチタスクベンチマーク
Authors: Wangchunshu Zhou, Yan Zeng, Shizhe Diao, Xinsong Zhang
Abstract要約: 視覚言語前訓練の最近の進歩は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。一般化能力と効率-性能トレードオフを評価するマルチタスクマルチディメンジョン・ベンチマークであるVision-Language Understanding Evaluationベンチマークを導入する。
参考スコア（独自算出の注目度）: 21.549122658275383
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in vision-language pre-training (VLP) have demonstrated impressive performance in a range of vision-language (VL) tasks. However, there exist several challenges for measuring the community's progress in building general multi-modal intelligence. First, most of the downstream VL datasets are annotated using raw images that are already seen during pre-training, which may result in an overestimation of current VLP models' generalization ability. Second, recent VLP work mainly focuses on absolute performance but overlooks the efficiency-performance trade-off, which is also an important indicator for measuring progress. To this end, we introduce the Vision-Language Understanding Evaluation (VLUE) benchmark, a multi-task multi-dimension benchmark for evaluating the generalization capabilities and the efficiency-performance trade-off (``Pareto SOTA'') of VLP models. We demonstrate that there is a sizable generalization gap for all VLP models when testing on out-of-distribution test sets annotated on images from a more diverse distribution that spreads across cultures. Moreover, we find that measuring the efficiency-performance trade-off of VLP models leads to complementary insights for several design choices of VLP. We release the VLUE benchmark to promote research on building vision-language models that generalize well to more diverse images and concepts unseen during pre-training, and are practical in terms of efficiency-performance trade-off.
Abstract（参考訳）: 視覚言語前訓練(VLP)の最近の進歩は、視覚言語前訓練(VL)タスクにおいて顕著なパフォーマンスを示している。しかし、一般のマルチモーダル・インテリジェンスの構築におけるコミュニティの進展を測定するためのいくつかの課題がある。まず、下流のVLデータセットのほとんどは、事前トレーニング中にすでに見られる生画像を使って注釈付けされ、現在のVLPモデルの一般化能力を過大評価する可能性がある。第二に、最近のVLPの研究は主に絶対性能に焦点を当てているが、進歩を測定する重要な指標である効率と性能のトレードオフを見落としている。この目的のために、VLPモデルの一般化能力と効率性能トレードオフ(`Pareto SOTA''')を評価するマルチタスクマルチ次元ベンチマークであるVision-Language Understanding Evaluation (VLUE)ベンチマークを導入する。文化にまたがるより多様な分布の画像にアノテートされた分散テストセットをテストする際に、すべてのvlpモデルにかなりの一般化ギャップがあることを実証する。さらに,VLPモデルの効率と性能のトレードオフを測定することで,VLPの設計選択の相補的な洞察が得られた。我々はVLUEベンチマークを公開し、事前学習中に見つからないより多様な画像や概念を一般化し、効率と性能のトレードオフの観点から実践的な視覚言語モデルの構築を促進する。

関連論文リスト

Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は349万の質問と332万の画像からなる総合的なきめ細かい評価ベンチマーク、すなわちFG-BMKを導入する。本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-04-21T09:30:41Z)
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文参考訳（メタデータ） (2025-03-27T22:23:04Z)
Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension [95.63899307791665]
視覚価値モデル(VisVM)は、VLM推論時間探索をガイドして、より良い視覚的理解で応答を生成する。本稿では、VLM推論時間探索をガイドし、視覚的理解を向上した応答を生成するVisVMを提案する。
論文参考訳（メタデータ） (2024-12-04T20:35:07Z)
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。現在のアセスメント手法は、従来のタスクからAIアノテートされた好みラベルに依存している。 VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがるベンチマークである。
論文参考訳（メタデータ） (2024-11-26T14:08:34Z)
Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文参考訳（メタデータ） (2024-11-07T09:17:50Z)
@Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology [31.779074930032184]
視覚障害者を支援するための人間中心補助技術(AT)は、複数のタスクを同時に実行することのできるジェネラリストへと進化している。われわれはまず、PVIsで事前設計されたユーザースタディによってガイドされた新しいATベンチマーク(@Bench)を作成する。さらに、全てのタスクを同時に処理し、PVIを支援するためにより補助的な機能に拡張できる新しいATモデル(@Model)を提案する。
論文参考訳（メタデータ） (2024-09-21T18:30:17Z)
Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning [15.296263261737026]
マルチイメージMIRBベンチマークを導入し、複数の画像を比較し、分析し、推論する視覚言語モデルの能力を評価する。私たちのベンチマークには、知覚、視覚世界知識、推論、マルチホップ推論の4つのカテゴリが含まれています。オープンソースVLMはシングルイメージタスクにおいてGPT-4Vに接近することを示したが、マルチイメージ推論タスクでは大きなギャップが残っている。
論文参考訳（メタデータ） (2024-06-18T16:02:18Z)
What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases [87.65903426052155]
データから潜在視覚言語スキルの発見を目的とした大規模な移動学習実験を行った。生成タスクが長さバイアスに悩まされることを示し、ベンチマークは出力長の異なるタスクのバランスをとるべきであることを示唆する。我々は新しいデータセットOLIVEを提示し、そこでユーザーの指示をシミュレーションし、テストしたすべてのデータセットと異なる課題を提示します。
論文参考訳（メタデータ） (2024-04-03T02:40:35Z)
VL-CheckList: Evaluating Pre-trained Vision-Language Models with Objects, Attributes and Relations [28.322824790738768]
Vision-Language Pretrainingモデルは、多くのモード間下流タスクを成功に導いた。既存の作業の多くは、微調整された下流タスクのパフォーマンスを比較することでシステムを評価した。自然言語処理をテストするためにCheckListにインスパイアされた我々は、新しいフレームワークであるVL-CheckListを利用する。
論文参考訳（メタデータ） (2022-07-01T06:25:53Z)
PEVL: Position-enhanced Pre-training and Prompt Tuning for Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。 PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。 PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文参考訳（メタデータ） (2022-05-23T10:17:53Z)
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。 PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文参考訳（メタデータ） (2022-03-12T09:33:37Z)
Vision-Language Intelligence: Tasks, Representation Learning, and Large Models [32.142076223602906]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文参考訳（メタデータ） (2022-03-03T18:54:59Z)
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。 SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文参考訳（メタデータ） (2021-08-24T18:14:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。