Fugu-MT 論文翻訳(概要): MiCEval: Unveiling Multimodal Chain of Thought's Quality via Image Description and Reasoning Steps

論文の概要: MiCEval: Unveiling Multimodal Chain of Thought's Quality via Image Description and Reasoning Steps

arxiv url: http://arxiv.org/abs/2410.14668v3
Date: Sat, 16 Nov 2024 18:47:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.606429
Title: MiCEval: Unveiling Multimodal Chain of Thought's Quality via Image Description and Reasoning Steps
Title（参考訳）: MiCEval:イメージ記述と推論のステップを通じて、思考品質のマルチモーダルなチェーンを公開
Authors: Xiongtao Zhou, Jie He, Lanyu Chen, Jingyu Li, Haojing Chen, Víctor Gutiérrez-Basulto, Jeff Z. Pan, Hanjie Chen,
Abstract要約: 本稿では,各推論ステップと記述の質を評価することによって,推論チェーンの正しさを評価するためのフレームワークを提案する。 MiCEvalは詳細なデータセット上に構築されており、各ステップを正確性、妥当性、情報性に応じて評価するアノテーションを備えている。実験の結果、MiCEvalを用いた段階的評価は、既存の方法に比べて人間の判断とより密接に一致していることがわかった。
参考スコア（独自算出の注目度）: 24.36233529148224
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multimodal Chain of Thought (MCoT) is a popular prompting strategy for improving the performance of multimodal large language models (MLLMs) across a range of complex reasoning tasks. Despite its popularity, there is a notable absence of automated methods for evaluating the quality of reasoning steps in MCoT. To address this gap, we propose Multimodal Chain-of-Thought Evaluation (MiCEval), a framework designed to assess the correctness of reasoning chains by evaluating the quality of both the description and each reasoning step. The evaluation of the description component focuses on the accuracy of the image descriptions, while the reasoning step evaluates the quality of each step as it is conditionally generated based on the preceding steps. MiCEval is built upon a fine-grained dataset with annotations that rate each step according to correctness, relevance, and informativeness. Extensive experiments on four state-of-the-art MLLMs show that step-wise evaluations using MiCEval align more closely with human judgments compared to existing methods based on cosine similarity or fine-tuning approaches. MiCEval datasets and code can be found in https://github.com/alenai97/MiCEval.
Abstract（参考訳）: MCoT(Multimodal Chain of Thought)は、様々な複雑な推論タスクにおいてMLLM(Multimodal Large Language Model)の性能を向上させるための一般的なプロンプト戦略である。その人気にもかかわらず、MCoTにおける推論ステップの品質を評価するための自動手法が欠落している。このギャップに対処するため、我々は、説明と各推論ステップの質を評価することによって、推論チェーンの正しさを評価するためのフレームワークであるMultimodal Chain-of-Thought Evaluation (MiCEval)を提案する。説明成分の評価は、画像記述の精度に焦点を当て、推論ステップは、前段に基づいて条件付きで生成された各ステップの品質を評価する。 MiCEvalは詳細なデータセット上に構築されており、各ステップを正確性、妥当性、情報性に応じて評価するアノテーションを備えている。 4つの最先端MLLMの広範囲な実験により、MiCEvalを用いた段階的評価は、コサイン類似性や微調整アプローチに基づく既存の手法と比較して、人間の判断とより密接に一致していることが示された。 MiCEvalのデータセットとコードはhttps://github.com/alenai97/MiCEvalにある。

関連論文リスト

What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation [67.47463575774388]
我々は推論品質を関連性と一貫性の2つの次元に分解する。これらの側面を確実に測定するために、因果的段階評価(CaSE)を導入する。トレーニングデータをCaSEで評価した妥当性とコヒーレンスでキュレートすることで、最終タスクのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-10-23T14:30:37Z)
MDSEval: A Meta-Evaluation Benchmark for Multimodal Dialogue Summarization [37.14603751893579]
MDSEvalはMDSの最初のメタ評価ベンチマークである。我々の研究は、MDSに特有の重要な評価次元を初めて特定し、形式化するものである。
論文参考訳（メタデータ） (2025-10-02T04:38:27Z)
SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。 Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。 ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文参考訳（メタデータ） (2025-06-18T14:37:59Z)
HiMATE: A Hierarchical Multi-Agent Framework for Machine Translation Evaluation [38.67031685302134]
HiMATEは機械翻訳評価のための階層型マルチエージェントフレームワークである。 MQMエラー型に基づく階層型マルチエージェントシステムを構築し,サブタイプエラーの詳細な評価を可能にする。経験的に、HiMATEは、人間によるアライメント評価の実行において、さまざまなデータセット間の競争ベースラインよりも優れています。
論文参考訳（メタデータ） (2025-05-22T06:24:08Z)
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AGIの品質評価のための包括的なフレームワークである。中間画像記述を生成する構造付きマルチラウンド評価機構を含む。複数のベンチマークデータセットで実施された実験は、M3-AGIQAが最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-02-21T03:05:45Z)
Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-01-18T15:38:03Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
BEExAI: Benchmark to Evaluate Explainable AI [0.9176056742068812]
本稿では,ポストホックXAI手法の大規模比較を可能にするベンチマークツールであるBEExAIを提案する。説明の質と正確性を測定するための信頼性の高い方法の必要性が重要になっていると論じる。
論文参考訳（メタデータ） (2024-07-29T11:21:17Z)
DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文参考訳（メタデータ） (2024-01-04T08:34:16Z)
MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。 MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。 MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文参考訳（メタデータ） (2023-07-12T16:23:09Z)
Knowledge-Prompted Estimator: A Novel Approach to Explainable Machine Translation Assessment [20.63045120292095]
言語間機械翻訳(MT)の品質評価は,翻訳性能を評価する上で重要な役割を担っている。 GEMBAはLarge Language Models (LLMs) に基づく最初のMT品質評価尺度であり、システムレベルのMT品質評価において最先端(SOTA)を達成するために一段階のプロンプトを用いる。本稿では,KPE(Knowledge-Prompted Estor)という,難易度,トークンレベルの類似度,文レベルの類似度を含む3つのワンステッププロンプト技術を組み合わせたCoTプロンプト手法を提案する。
論文参考訳（メタデータ） (2023-06-13T01:18:32Z)
Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文参考訳（メタデータ） (2023-03-21T14:24:58Z)
The Meta-Evaluation Problem in Explainable AI: Identifying Reliable Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文参考訳（メタデータ） (2023-02-14T18:59:02Z)
Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文参考訳（メタデータ） (2022-05-20T20:50:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。