論文の概要: Simulating Validity: Modal Decoupling in MLLM Generated Feedback on Science Drawings
- arxiv url: http://arxiv.org/abs/2604.26957v1
- Date: Sun, 05 Apr 2026 20:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.243679
- Title: Simulating Validity: Modal Decoupling in MLLM Generated Feedback on Science Drawings
- Title(参考訳): MLLMにおけるモーダルデカップリングの妥当性のシミュレーション
- Authors: Arne Bewersdorff, Nejla Yuruk, Xiaoming Zhai,
- Abstract要約: 科学教育では、学生はしばしば手描きの科学現象の視覚モデルを構築している。
このようなフィードバックの妥当性は、モデルクレームが学生図面の特定の視覚的証拠に根ざされているかどうかに依存する。
本研究は,既成のMLLMフィードバックにおいて,モーダルデカップリングと整合な接地障害を明らかにする。
- 参考スコア(独自算出の注目度): 0.9785041136819492
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In science education, students frequently construct hand-drawn visual models of scientific phenomena. These drawings rely on a visual structure where information is encoded through visual objects, their attributes, and relationships. Multimodal large language models (MLLMs) are increasingly used to generate feedback on students' hand-drawn scientific models. However, the validity of such feedback depends on whether model claims are grounded in the specific visual evidence of the student drawing. This study uncovers grounding failures, consistent with modal decoupling, in off-the-shelf MLLM feedback, where outputs remain pedagogically plausible in form while contradicting the drawing or treating depicted elements as missing. Using N = 150 middle school drawings from a kinetic molecular theory unit spanning five modeling tasks and three competence levels, we generated N = 300 feedback instances with GPT-5.1. All outputs were coded for four grounding error types: object mismatch, attribute mismatch, relation mismatch, and false absence. Grounding failures were common: 41.3% of feedback instances contained at least one error. An inventory-list-first workflow reduced several error categories and lowered the overall error rate, but it did not resolve the underlying limitation: approximately one in three outputs remained flawed, with false absence as the dominant failure mode. Moreover, feedback that appears visually grounded offered little diagnostic value for identifying invalid instances. The findings indicate that modal decoupling is a substantial limitation and that valid feedback will require grounding mechanisms beyond common prompting strategies.
- Abstract(参考訳): 科学教育では、学生はしばしば手描きの科学現象の視覚モデルを構築している。
これらの図面は、情報が視覚オブジェクト、それらの属性、および関係によって符号化される視覚構造に依存している。
MLLM(Multimodal large language model)は、学生の手書き科学モデルに対するフィードバックを生成するために、ますます用いられる。
しかし、そのようなフィードバックの有効性は、モデルクレームが学生図面の特定の視覚的証拠に根ざされているかどうかに依存する。
本研究は, 既成のMLLMフィードバックにおいて, 画像要素の描画や処理に矛盾しながら, 出力が図形的に妥当なままであり続けるという, モダルデカップリングと整合した接地障害を明らかにするものである。
5つのモデリングタスクと3つの能力レベルにまたがる運動分子理論ユニットからN = 150個の中学図面を用いて, GPT-5.1でN = 300個のフィードバックインスタンスを生成した。
すべての出力は、オブジェクトミスマッチ、属性ミスマッチ、関係ミスマッチ、偽不在の4つの基底エラータイプのためにコーディングされた。
41.3%のフィードバックインスタンスには少なくとも1つのエラーが含まれていた。
インベントリリストファーストのワークフローは、いくつかのエラーカテゴリを減らし、全体的なエラー率を下げたが、根本的な制限は解決しなかった。
さらに、視覚的に根拠づけられたフィードバックは、無効なインスタンスを特定するための診断価値をほとんど提供しなかった。
その結果、モーダルデカップリングは実質的な制限であり、有効なフィードバックには、一般的なプロンプト戦略以上の基盤機構が必要であることが示唆された。
関連論文リスト
- Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models [33.04999074297977]
本稿では,言語モデルにおける不完全学習現象(ILP)に関する最初の体系的研究について述べる。
我々は,事前学習モデルにおける前提条件知識の欠如,SFT監督と事前学習知識の相違,SFTデータ内部の不整合,逐次微調整中の左サイドの忘れ,稀なパターンや複雑なパターンの最適化が不十分な5つの不完全学習源を同定した。
Qwen、LLaMA、OLMo2の実験では、不完全学習は広く、不均一であり、集約されたメトリクスの改善は、永続的な未学習サブセットを隠蔽する可能性がある。
論文 参考訳(メタデータ) (2026-04-11T07:55:32Z) - Multimodal Large Language Models as Image Classifiers [14.022566577479322]
マルチモーダル大言語モデル(MLLM)の分類性能は,評価プロトコルと基礎的真理品質に大きく依存する。
提供されるクラスリストの外側にあるモデル出力は破棄され、弱い多重選択の散らばった結果が膨らませられ、出力マッピングの貧弱さによってのみ性能が低下するオープンワールド設定が実現されます。
我々は,MLLMがヒトのアノテータを補助できることを示す。制御されたケーススタディでは,MLLMの予測が難しいケースの約50%で確認または統合されている。
論文 参考訳(メタデータ) (2026-03-06T18:59:58Z) - Unsupervised Learning for Industrial Defect Detection: A Case Study on Shearographic Data [0.0]
本研究では,せん断画像の自動異常検出のための教師なし学習手法について検討する。
完全に接続されたオートエンコーダ、畳み込みオートエンコーダ、学生-教師モデルという3つのアーキテクチャが評価されている。
その結果, 生徒-教師のアプローチは, より優れた分類を達成し, 正確なローカライゼーションを可能にすることがわかった。
論文 参考訳(メタデータ) (2025-11-04T12:48:02Z) - Learning to Make MISTAKEs: Modeling Incorrect Student Thinking And Key Errors [58.65143578052761]
本稿では,推論誤りの高品質な合成例を構成する新しい手法であるMISTAKEを提案する。
3つの教育課題において,MISTAKEを評価した結果,(1)誤答のシミュレーションにおいて高い精度が得られた。
論文 参考訳(メタデータ) (2025-10-13T15:10:38Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [79.40678802098026]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
本稿では,共通なエラーパターンを明示的なガイダンスとして組み込んだEAP(Error-Aware Prompting)を提案する。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - Relations, Negations, and Numbers: Looking for Logic in Generative Text-to-Image Models [0.5461938536945723]
関係、否定、離散数という3種類の論理作用素について検討する。
人的合意のスコアが50%を超えることは確実ではない。
本稿では,マルチモーダル学習システムに固有の制約について論じる。
論文 参考訳(メタデータ) (2024-11-26T03:06:52Z) - Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study [61.74571814707054]
検索した文書やモデルの事前学習データに生成されたすべての文が接地されているかどうかを評価する。
3つのデータセットと4つのモデルファミリーにまたがって、生成した文のかなりの部分が一貫してアングラウンド化されていることが明らかとなった。
以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T14:50:10Z) - DAGAD: Data Augmentation for Graph Anomaly Detection [57.92471847260541]
本稿では、属性グラフのための新しいデータ拡張ベースのグラフ異常検出(DAGAD)フレームワークを考案する。
3つのデータセットに関する一連の実験は、DAGADが様々な主に使用されるメトリクスに関して、10の最先端のベースライン検出器より優れていることを証明している。
論文 参考訳(メタデータ) (2022-10-18T11:28:21Z) - Counterfactual Intervention Feature Transfer for Visible-Infrared Person
Re-identification [69.45543438974963]
視覚赤外人物再識別タスク(VI-ReID)におけるグラフベースの手法は,2つの問題により,悪い一般化に悩まされている。
十分に訓練された入力特徴は、グラフトポロジーの学習を弱め、推論過程において十分に一般化されない。
本稿では,これらの問題に対処するためのCIFT法を提案する。
論文 参考訳(メタデータ) (2022-08-01T16:15:31Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。