論文の概要: Task Me Anything
- arxiv url: http://arxiv.org/abs/2406.11775v1
- Date: Mon, 17 Jun 2024 17:32:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 13:23:59.840772
- Title: Task Me Anything
- Title(参考訳): Task Me Anything
- Authors: Jieyu Zhang, Weikai Huang, Zixian Ma, Oscar Michel, Dong He, Tanmay Gupta, Wei-Chiu Ma, Ali Farhadi, Aniruddha Kembhavi, Ranjay Krishna,
- Abstract要約: 本稿では,ユーザのニーズに合わせたベンチマークを作成する。
113Kイメージ、10Kビデオ、2Kの3Dオブジェクトアセット、365以上のオブジェクトカテゴリ、655の属性、335の関係がある。
750万のイメージ/ビデオ問合せペアを生成することが可能で、知覚能力の評価に重点を置いている。
- 参考スコア(独自算出の注目度): 72.810309406219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarks for large multimodal language models (MLMs) now serve to simultaneously assess the general capabilities of models instead of evaluating for a specific capability. As a result, when a developer wants to identify which models to use for their application, they are overwhelmed by the number of benchmarks and remain uncertain about which benchmark's results are most reflective of their specific use case. This paper introduces Task-Me-Anything, a benchmark generation engine which produces a benchmark tailored to a user's needs. Task-Me-Anything maintains an extendable taxonomy of visual assets and can programmatically generate a vast number of task instances. Additionally, it algorithmically addresses user queries regarding MLM performance efficiently within a computational budget. It contains 113K images, 10K videos, 2K 3D object assets, over 365 object categories, 655 attributes, and 335 relationships. It can generate 750M image/video question-answering pairs, which focus on evaluating MLM perceptual capabilities. Task-Me-Anything reveals critical insights: open-source MLMs excel in object and attribute recognition but lack spatial and temporal understanding; each model exhibits unique strengths and weaknesses; larger models generally perform better, though exceptions exist; and GPT4o demonstrates challenges in recognizing rotating/moving objects and distinguishing colors.
- Abstract(参考訳): 大規模マルチモーダル言語モデル(MLM)のベンチマークは、特定の能力を評価する代わりに、モデルの一般的な能力を同時に評価するために役立っている。
結果として、開発者がアプリケーションに使用するモデルを特定したい場合、ベンチマークの数に圧倒され、どのベンチマーク結果が自身の特定のユースケースを最も反映しているかは不透明である。
本稿では,ユーザのニーズに合わせてベンチマークを生成するベンチマーク生成エンジンであるTask-Me-Anythingを紹介する。
Task-Me-Anythingは、視覚資産の拡張可能な分類を維持し、膨大な数のタスクインスタンスをプログラム的に生成することができる。
さらに,MLM性能に関するユーザクエリを,計算予算内で効率的に処理する。
113Kイメージ、10Kビデオ、2Kの3Dオブジェクトアセット、365以上のオブジェクトカテゴリ、655の属性、335の関係がある。
MLMの知覚能力を評価することに焦点を当てた750万のイメージ/ビデオ質問応答ペアを生成することができる。
Task-Me-Anythingは、オブジェクトと属性の認識において優れているが、空間的および時間的理解の欠如、それぞれのモデルは独自の長所と短所を示し、より大きなモデルは例外はあるが、一般的にはより良いパフォーマンスを示す。
関連論文リスト
- MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
MIBenchは、マルチイメージ・インストラクション(MII)、マルチモーダル・ナレッジ・シーキング(MKS)、マルチモーダル・イン・コンテクスト・ラーニング(MIC)の3つのシナリオに分類し、13のタスクを合計13Kの注釈付きサンプルで構成する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Sign of the Times: Evaluating the use of Large Language Models for Idiomaticity Detection [2.2724928083094196]
本研究は,SemEval 2022 Task 2a, FLUTE, MAGPIEの3つの慣用性データセット上でのLLMの性能について考察する。
これらのモデルが競合する性能を与える一方で、最大のスケールであっても、微調整されたタスク固有モデルの結果と一致しないことがわかった。
論文 参考訳(メタデータ) (2024-05-15T11:55:14Z) - MileBench: Benchmarking MLLMs in Long Context [31.211260223575092]
MLLMのMultImodal Long-contExt機能をテストするためのベンチマークであるMileBenchを紹介する。
MLLMの長文適応能力と長文シナリオにおけるタスク完了能力を体系的に評価する。
その結果、オープンソースGPT-4oは他よりも優れているが、ほとんどのオープンソースMLLMは長期的文脈で苦労していることがわかった。
論文 参考訳(メタデータ) (2024-04-29T09:19:05Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Attributed Question Answering: Evaluation and Modeling for Attributed
Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。
我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文 参考訳(メタデータ) (2022-12-15T18:45:29Z) - EvEntS ReaLM: Event Reasoning of Entity States via Language Models [24.077262847151232]
残念なことに、Large Language Model(LLM)は、オブジェクトの相互作用に関する手続き的な知識を公開しています。
特に,本研究の結果は,未確認属性(ドメイン外)や限られたデータしか利用できない場合に特に有用であることが示唆された。
論文 参考訳(メタデータ) (2022-11-10T07:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。