Fugu-MT 論文翻訳(概要): MMRel: A Relation Understanding Benchmark in the MLLM Era

論文の概要: MMRel: A Relation Understanding Benchmark in the MLLM Era

arxiv url: http://arxiv.org/abs/2406.09121v2
Date: Sun, 17 Nov 2024 10:16:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.589316
Title: MMRel: A Relation Understanding Benchmark in the MLLM Era
Title（参考訳）: MMRel:MLLM時代のベンチマークを理解する
Authors: Jiahao Nie, Gongjie Zhang, Wenbin An, Yap-Peng Tan, Alex C. Kot, Shijian Lu,
Abstract要約: MMRel(Multi-Modal Relation Understanding)は、オブジェクト間の関係に関する大規模で高品質で多様なデータを特徴付けるベンチマークである。 MMRelは、関係理解に基づくMLLMの評価や、関係理解能力を高めるための微調整MLLMに最適である。
参考スコア（独自算出の注目度）: 72.95901753186227
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Though Multi-modal Large Language Models (MLLMs) have recently achieved significant progress, they often face various problems while handling inter-object relations, i.e., the interaction or association among distinct objects. This constraint largely stems from insufficient training and evaluation data for relation understanding, which has greatly impeded MLLMs in various vision-language generation and reasoning tasks. We attempt to address this challenge by introducing Multi-Modal Relation Understanding (MMRel), a benchmark that features large-scale, high-quality, and diverse data on inter-object relations. MMRel features three distinctive attributes: (i) It contains over 22K question-answer pairs, spanning three distinct domains and covering three relation categories, ensuring both scale and diversity; (ii) it provides manually verified, high-quality labels to ensure exceptional annotation accuracy; (iii) it includes adversarial cases with highly unusual relations, offering a challenging setting for evaluating relation hallucination. These features make MMRel ideal for evaluating MLLMs on relation understanding, as well as for fine-tuning MLLMs to enhance relation comprehension capability. Extensive experiments verify the effectiveness of MMRel in evaluating and enhancing MLLMs' relation understanding capabilities. The benchmark has been released publicly at: https://niejiahao1998.github.io/MMRel/
Abstract（参考訳）: MLLM(Multi-modal Large Language Models)は近年大きな進歩を遂げているが、オブジェクト間の関係、すなわち異なるオブジェクト間の相互作用や関連性を扱う際に、様々な問題に直面していることが多い。この制約は、様々な視覚言語の生成や推論タスクにおいてMLLMを著しく阻害している関係理解のためのトレーニングと評価の不十分なデータに大きく起因している。 MMRel(Multi-Modal Relation Understanding)は,大規模,高品質,多種多様なオブジェクト間関係データを特徴とするベンチマークである。 MMRelには3つの特徴がある。 (i)3つの異なる領域にまたがり、3つの関係カテゴリを網羅し、スケールと多様性の両立を保証する22K以上の質問応答対を含む。二例外的アノテーションの精度を確保するために、手作業で検証された高品質なラベルを提供すること。三極めて特異な関係を持つ敵の事件を含み、関係幻覚を評価するのに困難な状況を提供する。これらの特徴により、MMRelは関係理解に基づくMLLMの評価や、関係理解能力を高めるための微調整MLLMに最適である。 MLLMの関連理解能力の評価・向上におけるMMRelの有効性を検証する。ベンチマークは、https://niejiahao1998.github.io/MMRel/で公開された。

関連論文リスト

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships? [5.246809683975664]
本研究は、類似度に基づくメトリクスを超えて、MLLMを評価するための談話駆動フレームワークを採用することの必要性を強調する。我々のベンチマークである CORDIAL は、3つの異なる談話領域で様々な粒度でコヒーレンス関係を包含している。
論文参考訳（メタデータ） (2025-02-16T22:54:44Z)
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。 EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文参考訳（メタデータ） (2025-01-21T03:22:10Z)
Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文参考訳（メタデータ） (2024-12-24T16:38:04Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベルの視覚知識衝突の問題について考察する。 MLLMのコンフリクトのシミュレーションと評価を目的としたベンチマークを確立するため,人間のループ品質制御を付加した自動パイプラインを導入する。各種モデルファミリーにおける9つの代表MLLMのコンフリクト分解能を評価し,テキストクエリに顕著なオーバー信頼度を求める。
論文参考訳（メタデータ） (2024-10-10T17:31:17Z)
MM-R$^3$: On (In-)Consistency of Multi-modal Large Language Models (MLLMs) [26.475993408532304]
本研究では,MLLMモデルが意味論的に類似したクエリに対して,意味論的に類似あるいは同一の応答を生成する能力について検討する。本稿では,SoTA MLLMの一貫性と精度の観点から,MM-R$3$ベンチマークを提案する。我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
論文参考訳（メタデータ） (2024-10-07T06:36:55Z)
The Labyrinth of Links: Navigating the Associative Maze of Multi-modal LLMs [42.72336063802124]
MLLM(Multi-modal Large Language Models)は印象的な能力を示す。 MLLMの欠陥の多くは、人間の知性(例えば$textite.g.$)と比較して見出されている。観察と事前の実践記憶をリンクする人間の基本的な能力であるtextbfassociation$。
論文参考訳（メタデータ） (2024-10-02T10:58:54Z)
Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文参考訳（メタデータ） (2024-08-22T23:32:42Z)
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。 MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文参考訳（メタデータ） (2024-07-11T15:08:11Z)
MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs [38.93090238335506]
非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
論文参考訳（メタデータ） (2024-06-24T20:29:16Z)
GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文参考訳（メタデータ） (2024-06-19T06:15:26Z)
Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。 MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文参考訳（メタデータ） (2024-01-19T07:10:13Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。