論文の概要: Learning to Correction: Explainable Feedback Generation for Visual Commonsense Reasoning Distractor
- arxiv url: http://arxiv.org/abs/2412.07801v1
- Date: Sun, 08 Dec 2024 03:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:04:34.367343
- Title: Learning to Correction: Explainable Feedback Generation for Visual Commonsense Reasoning Distractor
- Title(参考訳): 補正への学習:ビジュアルコモンセンス推論ディトラクタのための説明可能なフィードバック生成
- Authors: Jiali Chen, Xusen Hei, Yuqi Xue, Yuancheng Wei, Jiayuan Xie, Yi Cai, Qing Li,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は視覚的コモンセンス推論(VCR)タスクにおいて顕著な性能を示した。
しかし,LMMが障害発生時の視覚的コモンセンス誤差を補正する能力はまだ解明されていない。
我々はこの誤り訂正過程をシミュレートするLMMの先駆的な研究である。
- 参考スコア(独自算出の注目度): 12.829202761125096
- License:
- Abstract: Large multimodal models (LMMs) have shown remarkable performance in the visual commonsense reasoning (VCR) task, which aims to answer a multiple-choice question based on visual commonsense within an image. However, the ability of LMMs to correct potential visual commonsense errors in the distractor upon their occurrence is yet under-explored. Drawing inspiration from how a human teacher crafts challenging distractors to test students' comprehension of the concepts or skills and assists them in identifying and correcting errors toward the answer, we are the pioneering research for LMMs to simulate this error correction process. To this end, we employ GPT-4 as a ``teacher'' to collect the explainable feedback dataset VCR-DF for error correction, which serves as a benchmark to evaluate the ability of LMMs to identify misconceptions and clarify reasons behind the error in VCR distractors toward final answers. In addition, we propose an LMM-based Pedagogical Expert Instructed Feedback Generation (PEIFG) model to incorporate the learnable expert prompts and multimodal instruction as guidance for feedback generation. Experimental results show that our PEIFG significantly outperforms existing LMMs. We believe that our benchmark provides a new direction for evaluating the capabilities of LMMs.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は視覚的コモンセンス推論(VCR)タスクにおいて顕著な性能を示し、画像内の視覚的コモンセンスに基づいて、複数の質問に答えることを目的としている。
しかし,LMMが障害発生時の視覚的コモンセンス誤差を補正する能力はまだ解明されていない。
人間の教師が、学生が概念やスキルの理解をテストし、解答に対する誤りを識別し、修正するのを助けるために、気を散らすことに挑戦する手法からインスピレーションを得て、我々はこの誤り訂正プロセスをシミュレートするLMMの先駆的な研究である。
この目的のために, GPT-4 を 'teacher'' として用いて, 誤り訂正のための説明可能なフィードバックデータセット VCR-DF を収集する。
さらに,LMMに基づく Pedagogical Expert Instructed Feedback Generation (PEIFG) モデルを提案する。
実験の結果,PEIFGは既存のLMMよりも有意に優れていた。
我々は,我々のベンチマークがLMMの能力を評価するための新たな方向性を提供すると考えている。
関連論文リスト
- Towards Adaptive Feedback with AI: Comparing the Feedback Quality of LLMs and Teachers on Experimentation Protocols [8.71931996488953]
本研究では,大規模言語モデル(LLM)のフィードバック品質を,人間教師や理科教育専門家のフィードバック品質と比較した。
その結果,LLMによるフィードバックは,教師や専門家の全体的な品質に有意な差は認められなかった。
論文 参考訳(メタデータ) (2025-02-18T13:22:14Z) - Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review [11.756344944226495]
ピアリビュー(FAIR)アプローチによる新しいフォールト・アウェア・ディストイレーション(Fact-Aware DistIllation)を導入する。
本手法は,教師から合理性を得るのではなく,教師に生徒の過ちを特定・説明するよう求めている。
論文 参考訳(メタデータ) (2024-10-04T17:59:41Z) - Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。
幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。
本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:32:45Z) - F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
トレーニング可能なCNNレイヤをいくつか使用すれば、ワードピクセルのアテンション重みをマスクロジットに変換することができる。
我々のF-LMMは特別なセグメンテーショントークンを学習したり、高品質な接地命令チューニングデータを利用したりもしません。
論文 参考訳(メタデータ) (2024-06-09T15:14:26Z) - Mitigating Large Language Model Hallucinations via Autonomous Knowledge
Graph-based Retrofitting [51.7049140329611]
本稿では,知識グラフに基づくリトロフィッティング(KGR)を提案する。
実験により,実QAベンチマークにおいて,KGRはLLMの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-11-22T11:08:38Z) - Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [86.24898024621008]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデルを提案する(略してMyriad)。
我々は,視覚専門家が生成する異常マップをLMMのガイダンスとして利用し,視覚モデルが異常領域により多くの注意を払うように誘導する。
提案手法は最先端の手法に対して良好に機能するだけでなく,IAD分野におけるLMMの柔軟性や命令追従性を継承する。
論文 参考訳(メタデータ) (2023-10-29T16:49:45Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。