Fugu-MT 論文翻訳(概要): Task Me Anything

論文の概要: Task Me Anything

arxiv url: http://arxiv.org/abs/2406.11775v1
Date: Mon, 17 Jun 2024 17:32:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 13:23:59.840772
Title: Task Me Anything
Title（参考訳）: Task Me Anything
Authors: Jieyu Zhang, Weikai Huang, Zixian Ma, Oscar Michel, Dong He, Tanmay Gupta, Wei-Chiu Ma, Ali Farhadi, Aniruddha Kembhavi, Ranjay Krishna,
Abstract要約: 本稿では,ユーザのニーズに合わせたベンチマークを作成する。 113Kイメージ、10Kビデオ、2Kの3Dオブジェクトアセット、365以上のオブジェクトカテゴリ、655の属性、335の関係がある。 750万のイメージ/ビデオ問合せペアを生成することが可能で、知覚能力の評価に重点を置いている。
参考スコア（独自算出の注目度）: 72.810309406219
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Benchmarks for large multimodal language models (MLMs) now serve to simultaneously assess the general capabilities of models instead of evaluating for a specific capability. As a result, when a developer wants to identify which models to use for their application, they are overwhelmed by the number of benchmarks and remain uncertain about which benchmark's results are most reflective of their specific use case. This paper introduces Task-Me-Anything, a benchmark generation engine which produces a benchmark tailored to a user's needs. Task-Me-Anything maintains an extendable taxonomy of visual assets and can programmatically generate a vast number of task instances. Additionally, it algorithmically addresses user queries regarding MLM performance efficiently within a computational budget. It contains 113K images, 10K videos, 2K 3D object assets, over 365 object categories, 655 attributes, and 335 relationships. It can generate 750M image/video question-answering pairs, which focus on evaluating MLM perceptual capabilities. Task-Me-Anything reveals critical insights: open-source MLMs excel in object and attribute recognition but lack spatial and temporal understanding; each model exhibits unique strengths and weaknesses; larger models generally perform better, though exceptions exist; and GPT4o demonstrates challenges in recognizing rotating/moving objects and distinguishing colors.
Abstract（参考訳）: 大規模マルチモーダル言語モデル(MLM)のベンチマークは、特定の能力を評価する代わりに、モデルの一般的な能力を同時に評価するために役立っている。結果として、開発者がアプリケーションに使用するモデルを特定したい場合、ベンチマークの数に圧倒され、どのベンチマーク結果が自身の特定のユースケースを最も反映しているかは不透明である。本稿では,ユーザのニーズに合わせてベンチマークを生成するベンチマーク生成エンジンであるTask-Me-Anythingを紹介する。 Task-Me-Anythingは、視覚資産の拡張可能な分類を維持し、膨大な数のタスクインスタンスをプログラム的に生成することができる。さらに,MLM性能に関するユーザクエリを,計算予算内で効率的に処理する。 113Kイメージ、10Kビデオ、2Kの3Dオブジェクトアセット、365以上のオブジェクトカテゴリ、655の属性、335の関係がある。 MLMの知覚能力を評価することに焦点を当てた750万のイメージ/ビデオ質問応答ペアを生成することができる。 Task-Me-Anythingは、オブジェクトと属性の認識において優れているが、空間的および時間的理解の欠如、それぞれのモデルは独自の長所と短所を示し、より大きなモデルは例外はあるが、一般的にはより良いパフォーマンスを示す。

関連論文リスト

MathOPEval: A Fine-grained Evaluation Benchmark for Visual Operations of MLLMs in Mathematical Reasoning [57.42710816140401]
有望なアプローチでは、中間表現としてコードを使用し、推論ステップで画像を正確に表現し、操作する。既存の評価はテキストのみの推論出力に重点を置いており、MLLMはコードによる正確な視覚操作をほとんど探索されていないままにしている。この研究は、マルチモーダル数学的推論におけるMLLMのコードベース能力を評価することによって、そのギャップに対処する第一歩を踏み出した。
論文参考訳（メタデータ） (2025-07-24T07:03:11Z)
Foundation Models for Remote Sensing: An Analysis of MLLMs for Object Localization [7.0683335354070085]
我々は,空間的推論機能を含むように明示的に訓練された最近のMLLMを分析した。これらのモデルが特定の設定で実行可能であることを実証し、ゼロショットシナリオに適していることを示す。
論文参考訳（メタデータ） (2025-04-14T21:34:06Z)
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。 EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文参考訳（メタデータ） (2025-01-21T03:22:10Z)
NEMO: Can Multimodal LLMs Identify Attribute-Modified Objects? [19.525612393979777]
我々は,オリギナル果実とそれに対応するアトリビュート修飾果実の900枚の画像からなる新しいベンチマークNEMOを紹介する。ベンチマークを用いて26の最近のオープンソースおよび商用モデルを評価した。本研究は,NEMOにおける物体認識における性能差を明らかにするとともに,異なるモデル間で異なる解の選好を明らかにすることを目的とした。
論文参考訳（メタデータ） (2024-11-26T17:47:34Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)
UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model [11.885204227946549]
統一表現を用いて様々なタスクを表現するために設計された包括的モデルを提案する。本モデルは,ユーザ指示の暗黙的な意図を理解する上で,強力な能力を示す。私たちのアプローチは、例外的なスケーラビリティと汎用性を示します。
論文参考訳（メタデータ） (2024-08-05T14:27:39Z)
MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文参考訳（メタデータ） (2024-07-21T21:22:58Z)
Sign of the Times: Evaluating the use of Large Language Models for Idiomaticity Detection [2.2724928083094196]
本研究は,SemEval 2022 Task 2a, FLUTE, MAGPIEの3つの慣用性データセット上でのLLMの性能について考察する。これらのモデルが競合する性能を与える一方で、最大のスケールであっても、微調整されたタスク固有モデルの結果と一致しないことがわかった。
論文参考訳（メタデータ） (2024-05-15T11:55:14Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文参考訳（メタデータ） (2023-11-20T07:06:31Z)
Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文参考訳（メタデータ） (2022-12-15T18:45:29Z)
EvEntS ReaLM: Event Reasoning of Entity States via Language Models [24.077262847151232]
残念なことに、Large Language Model(LLM)は、オブジェクトの相互作用に関する手続き的な知識を公開しています。特に,本研究の結果は,未確認属性(ドメイン外)や限られたデータしか利用できない場合に特に有用であることが示唆された。
論文参考訳（メタデータ） (2022-11-10T07:48:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。