論文の概要: MMRel: A Relation Understanding Benchmark in the MLLM Era
- arxiv url: http://arxiv.org/abs/2406.09121v2
- Date: Sun, 17 Nov 2024 10:16:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:33:49.978613
- Title: MMRel: A Relation Understanding Benchmark in the MLLM Era
- Title(参考訳): MMRel:MLLM時代のベンチマークを理解する
- Authors: Jiahao Nie, Gongjie Zhang, Wenbin An, Yap-Peng Tan, Alex C. Kot, Shijian Lu,
- Abstract要約: MMRel(Multi-Modal Relation Understanding)は、オブジェクト間の関係に関する大規模で高品質で多様なデータを特徴付けるベンチマークである。
MMRelは、関係理解に基づくMLLMの評価や、関係理解能力を高めるための微調整MLLMに最適である。
- 参考スコア(独自算出の注目度): 72.95901753186227
- License:
- Abstract: Though Multi-modal Large Language Models (MLLMs) have recently achieved significant progress, they often face various problems while handling inter-object relations, i.e., the interaction or association among distinct objects. This constraint largely stems from insufficient training and evaluation data for relation understanding, which has greatly impeded MLLMs in various vision-language generation and reasoning tasks. We attempt to address this challenge by introducing Multi-Modal Relation Understanding (MMRel), a benchmark that features large-scale, high-quality, and diverse data on inter-object relations. MMRel features three distinctive attributes: (i) It contains over 22K question-answer pairs, spanning three distinct domains and covering three relation categories, ensuring both scale and diversity; (ii) it provides manually verified, high-quality labels to ensure exceptional annotation accuracy; (iii) it includes adversarial cases with highly unusual relations, offering a challenging setting for evaluating relation hallucination. These features make MMRel ideal for evaluating MLLMs on relation understanding, as well as for fine-tuning MLLMs to enhance relation comprehension capability. Extensive experiments verify the effectiveness of MMRel in evaluating and enhancing MLLMs' relation understanding capabilities. The benchmark has been released publicly at: https://niejiahao1998.github.io/MMRel/
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は近年大きな進歩を遂げているが、オブジェクト間の関係、すなわち異なるオブジェクト間の相互作用や関連性を扱う際に、様々な問題に直面していることが多い。
この制約は、様々な視覚言語の生成や推論タスクにおいてMLLMを著しく阻害している関係理解のためのトレーニングと評価の不十分なデータに大きく起因している。
MMRel(Multi-Modal Relation Understanding)は,大規模,高品質,多種多様なオブジェクト間関係データを特徴とするベンチマークである。
MMRelには3つの特徴がある。
(i)3つの異なる領域にまたがり、3つの関係カテゴリを網羅し、スケールと多様性の両立を保証する22K以上の質問応答対を含む。
二 例外的アノテーションの精度を確保するために、手作業で検証された高品質なラベルを提供すること。
三 極めて特異な関係を持つ敵の事件を含み、関係幻覚を評価するのに困難な状況を提供する。
これらの特徴により、MMRelは関係理解に基づくMLLMの評価や、関係理解能力を高めるための微調整MLLMに最適である。
MLLMの関連理解能力の評価・向上におけるMMRelの有効性を検証する。
ベンチマークは、https://niejiahao1998.github.io/MMRel/で公開された。
関連論文リスト
- HERM: Benchmarking and Enhancing Multimodal LLMs for Human-Centric Understanding [68.4046326104724]
本稿では,MLLMの人間中心理解能力を評価するベンチマークであるHERM-Benchを紹介する。
我々の研究は、複雑な人間中心のシナリオを理解する上で、既存のMLLMの限界を明らかにする。
我々は、MLLMのトレーニングを強化することを目的とした、多レベルな人間中心アノテーションを備えた包括的なデータセットHERM-100Kを提案する。
論文 参考訳(メタデータ) (2024-10-09T11:14:07Z) - MM-R$^3$: On (In-)Consistency of Multi-modal Large Language Models (MLLMs) [26.475993408532304]
本研究では,MLLMモデルが意味論的に類似したクエリに対して,意味論的に類似あるいは同一の応答を生成する能力について検討する。
本稿では,SoTA MLLMの一貫性と精度の観点から,MM-R$3$ベンチマークを提案する。
我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
論文 参考訳(メタデータ) (2024-10-07T06:36:55Z) - The Labyrinth of Links: Navigating the Associative Maze of Multi-modal LLMs [42.72336063802124]
MLLM(Multi-modal Large Language Models)は印象的な能力を示す。
MLLMの欠陥の多くは、人間の知性(例えば$textite.g.$)と比較して見出されている。
観察と事前の実践記憶をリンクする人間の基本的な能力であるtextbfassociation$。
論文 参考訳(メタデータ) (2024-10-02T10:58:54Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。
また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。
以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文 参考訳(メタデータ) (2024-08-22T23:32:42Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs [38.93090238335506]
非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。
本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。
以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-06-24T20:29:16Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。