Fugu-MT 論文翻訳(概要): Learning to Correction: Explainable Feedback Generation for Visual Commonsense Reasoning Distractor

論文の概要: Learning to Correction: Explainable Feedback Generation for Visual Commonsense Reasoning Distractor

arxiv url: http://arxiv.org/abs/2412.07801v1
Date: Sun, 08 Dec 2024 03:59:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 23:20:26.414543
Title: Learning to Correction: Explainable Feedback Generation for Visual Commonsense Reasoning Distractor
Title（参考訳）: 補正への学習:ビジュアルコモンセンス推論ディトラクタのための説明可能なフィードバック生成
Authors: Jiali Chen, Xusen Hei, Yuqi Xue, Yuancheng Wei, Jiayuan Xie, Yi Cai, Qing Li,
Abstract要約: 大規模マルチモーダルモデル(LMM)は視覚的コモンセンス推論(VCR)タスクにおいて顕著な性能を示した。しかし,LMMが障害発生時の視覚的コモンセンス誤差を補正する能力はまだ解明されていない。我々はこの誤り訂正過程をシミュレートするLMMの先駆的な研究である。
参考スコア（独自算出の注目度）: 12.829202761125096
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Large multimodal models (LMMs) have shown remarkable performance in the visual commonsense reasoning (VCR) task, which aims to answer a multiple-choice question based on visual commonsense within an image. However, the ability of LMMs to correct potential visual commonsense errors in the distractor upon their occurrence is yet under-explored. Drawing inspiration from how a human teacher crafts challenging distractors to test students' comprehension of the concepts or skills and assists them in identifying and correcting errors toward the answer, we are the pioneering research for LMMs to simulate this error correction process. To this end, we employ GPT-4 as a ``teacher'' to collect the explainable feedback dataset VCR-DF for error correction, which serves as a benchmark to evaluate the ability of LMMs to identify misconceptions and clarify reasons behind the error in VCR distractors toward final answers. In addition, we propose an LMM-based Pedagogical Expert Instructed Feedback Generation (PEIFG) model to incorporate the learnable expert prompts and multimodal instruction as guidance for feedback generation. Experimental results show that our PEIFG significantly outperforms existing LMMs. We believe that our benchmark provides a new direction for evaluating the capabilities of LMMs.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)は視覚的コモンセンス推論(VCR)タスクにおいて顕著な性能を示し、画像内の視覚的コモンセンスに基づいて、複数の質問に答えることを目的としている。しかし,LMMが障害発生時の視覚的コモンセンス誤差を補正する能力はまだ解明されていない。人間の教師が、学生が概念やスキルの理解をテストし、解答に対する誤りを識別し、修正するのを助けるために、気を散らすことに挑戦する手法からインスピレーションを得て、我々はこの誤り訂正プロセスをシミュレートするLMMの先駆的な研究である。この目的のために, GPT-4 を 'teacher'' として用いて, 誤り訂正のための説明可能なフィードバックデータセット VCR-DF を収集する。さらに,LMMに基づく Pedagogical Expert Instructed Feedback Generation (PEIFG) モデルを提案する。実験の結果,PEIFGは既存のLMMよりも有意に優れていた。我々は,我々のベンチマークがLMMの能力を評価するための新たな方向性を提供すると考えている。

関連論文リスト

Q-Adapt: Adapting LMM for Visual Quality Assessment with Progressive Instruction Tuning [49.07442840323135]
そこで本研究では,Q-Adaptという,知覚指向型命令チューニングのための新しいパラダイムを提案する。提案したQ-Adaptは、軽量な視覚的品質評価器を実現し、同等の性能を示す。
論文参考訳（メタデータ） (2025-04-02T12:02:57Z)
Towards Adaptive Feedback with AI: Comparing the Feedback Quality of LLMs and Teachers on Experimentation Protocols [8.71931996488953]
本研究では,大規模言語モデル(LLM)のフィードバック品質を,人間教師や理科教育専門家のフィードバック品質と比較した。その結果,LLMによるフィードバックは,教師や専門家の全体的な品質に有意な差は認められなかった。
論文参考訳（メタデータ） (2025-02-18T13:22:14Z)
Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。説明は正しい応答と誤応答の両方に依存することが判明した。情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文参考訳（メタデータ） (2025-02-12T16:35:41Z)
Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review [11.756344944226495]
ピアリビュー(FAIR)による新しいフォールト・アウェア蒸留法を提案する。本手法では, 教師から金の合理性を得る代わりに, 生徒の過ちを特定・説明するよう教師に求めている。
論文参考訳（メタデータ） (2024-10-04T17:59:41Z)
Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文参考訳（メタデータ） (2024-07-16T06:32:45Z)
MalAlgoQA: Pedagogical Evaluation of Counterfactual Reasoning in Large Language Models and Implications for AI in Education [2.872215065231376]
本稿では,MalAlgoQAを提案する。MalAlgoQAは,大規模言語モデルの対実的推論能力を評価するために設計されたデータセットである。 MalAlgoQAの核心は、誤った答えの選択の裏にある、不完全で論理的に一貫性のある推論経路の理論的根拠である。
論文参考訳（メタデータ） (2024-07-01T03:39:13Z)
F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。トレーニング可能なCNNレイヤをいくつか使用すれば、ワードピクセルのアテンション重みをマスクロジットに変換することができる。我々のF-LMMは特別なセグメンテーショントークンを学習したり、高品質な接地命令チューニングデータを利用したりもしません。
論文参考訳（メタデータ） (2024-06-09T15:14:26Z)
Unsolvable Problem Detection: Robust Understanding Evaluation for Large Multimodal Models [84.78457918843165]
Unsolvable Problem Detection (UPD) は,大規模マルチモーダルモデル(LMM)の頑健な理解能力を評価するための新しいタスクである。 UPDは、多票質問応答の解決不可能な問題に遭遇する際のLMMの回答を抑える能力を評価する。実験の結果,既存のベンチマークで十分な性能を示すほとんどのLMMでも,MM-UPDとはかなり苦労していることがわかった。
論文参考訳（メタデータ） (2024-03-29T17:59:53Z)
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文参考訳（メタデータ） (2024-03-12T04:13:45Z)
Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文参考訳（メタデータ） (2023-10-29T16:49:45Z)
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2023-10-17T18:18:32Z)
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文参考訳（メタデータ） (2023-08-04T17:59:47Z)
Learning from Mistakes via Cooperative Study Assistant for Large Language Models [17.318591492264023]
大規模言語モデル(LLM)は、自身のフィードバックに基づいて、その世代を洗練させる可能性を実証している。 SALAM(Studio Assistant for Large Language Model)は,ミスから学習する上で,主要なLLMを支援するための補助エージェントを備えた新しいフレームワークである。
論文参考訳（メタデータ） (2023-05-23T08:51:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。