論文の概要: SlideChain: Semantic Provenance for Lecture Understanding via Blockchain Registration
- arxiv url: http://arxiv.org/abs/2512.21684v1
- Date: Thu, 25 Dec 2025 14:02:27 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:58:21.888795
- Title: SlideChain: Semantic Provenance for Lecture Understanding via Blockchain Registration
- Title(参考訳): SlideChain: ブロックチェーン登録による講義理解のためのセマンティックアプローチ
- Authors: Md Motaleb Hossen Manik, Md Zabirul Islam, Ge Wang,
- Abstract要約: モデルファミリ、推論設定、計算環境間の不整合は、AI生成した教材の信頼性を損なう。
この研究は、大規模なマルチモーダルセマンティック抽出のための検証可能な整合性を提供するように設計されたブロックチェーン支援の実証フレームワークであるSlideChainを紹介している。
- 参考スコア(独自算出の注目度): 5.691710068675227
- License:
- Abstract: Modern vision--language models (VLMs) are increasingly used to interpret and generate educational content, yet their semantic outputs remain challenging to verify, reproduce, and audit over time. Inconsistencies across model families, inference settings, and computing environments undermine the reliability of AI-generated instructional material, particularly in high-stakes and quantitative STEM domains. This work introduces SlideChain, a blockchain-backed provenance framework designed to provide verifiable integrity for multimodal semantic extraction at scale. Using the SlideChain Slides Dataset-a curated corpus of 1,117 medical imaging lecture slides from a university course-we extract concepts and relational triples from four state-of-the-art VLMs and construct structured provenance records for every slide. SlideChain anchors cryptographic hashes of these records on a local EVM (Ethereum Virtual Machine)-compatible blockchain, providing tamper-evident auditability and persistent semantic baselines. Through the first systematic analysis of semantic disagreement, cross-model similarity, and lecture-level variability in multimodal educational content, we reveal pronounced cross-model discrepancies, including low concept overlap and near-zero agreement in relational triples on many slides. We further evaluate gas usage, throughput, and scalability under simulated deployment conditions, and demonstrate perfect tamper detection along with deterministic reproducibility across independent extraction runs. Together, these results show that SlideChain provides a practical and scalable step toward trustworthy, verifiable multimodal educational pipelines, supporting long-term auditability, reproducibility, and integrity for AI-assisted instructional systems.
- Abstract(参考訳): 現代の視覚言語モデル(VLM)は、教育内容の解釈と生成にますます利用されているが、それらの意味的な出力は、時間とともに検証、再生、監査を困難にしている。
モデルファミリ、推論設定、計算環境間の不整合は、AI生成した教材の信頼性を損なう。
この研究は、大規模なマルチモーダルセマンティック抽出のための検証可能な整合性を提供するように設計されたブロックチェーン支援の実証フレームワークであるSlideChainを紹介している。
SlideChain Slides Dataset-大学コースから1,117個の医用画像講義スライドのキュレートコーパスを用いて、4つの最先端VLMから概念と関係トリプルを抽出し、スライド毎に構造化された前兆レコードを構築した。
SlideChainは、これらのレコードの暗号化ハッシュを、ローカルのEVM(Ethereum Virtual Machine)互換ブロックチェーンにアンカーし、不明確な監査性と永続的なセマンティックベースラインを提供する。
マルチモーダルな教育コンテンツにおける意味的不一致、相互モデル間の類似性、講義レベルの多様性に関する最初の体系的分析を通じて、多くのスライド上の関係的三重項における低概念的重複やほぼゼロの一致を含む、明らかな相互モデルの相違を明らかにする。
さらに、シミュレーションされた配置条件下でのガス使用量、スループット、スケーラビリティを評価し、独立抽出動作における決定論的再現性とともに、完全なタンパー検出を実証する。
これらの結果は、SlideChainが信頼性があり、検証可能なマルチモーダル教育パイプラインに向けて実用的でスケーラブルなステップを提供することを示している。
関連論文リスト
- SlideBot: A Multi-Agent Framework for Generating Informative, Reliable, Multi-Modal Presentations [29.874786844781138]
大規模言語モデル(LLM)は、クイズ生成やコンテンツ要約といったタスクを自動化し、教育において大きな可能性を示している。
既存のLCMベースのソリューションは、信頼性と情報的アウトプットが得られず、教育的価値が制限されることが多い。
SlideBot - LLMを検索、構造化計画、コード生成と統合したモジュラーでマルチエージェントなスライド生成フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T23:12:05Z) - Connecting Giants: Synergistic Knowledge Transfer of Large Multimodal Models for Few-Shot Learning [61.73934102302588]
少数ショット学習は、限られたトレーニングサンプルで新しいクラスを分類するという課題に対処する。
本稿では,大規模マルチモーダルモデルから多様かつ相補的な知識を効果的に伝達する新しいフレームワーク,Synergistic Knowledge Transferを提案する。
単純な数ショットのビジョンエンコーダと組み合わせても、SynTransは現在の最先端手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-10-13T08:06:23Z) - Scene-Agnostic Traversability Labeling and Estimation via a Multimodal Self-supervised Framework [9.925474085627275]
トレーバービリティの推定は、ロボットが多様な地形や環境を移動できるようにするために重要である。
トラバーサビリティラベリングと推定のためのマルチモーダルな自己教師型フレームワークを提案する。
当社のアプローチは、さまざまなデータセットの約88%のIoUを一貫して達成しています。
論文 参考訳(メタデータ) (2025-08-25T17:40:16Z) - SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations [68.9300049150948]
インタラクション実証(Reinforcement Demonstration, RLID)からの強化学習における根本的な課題に対処する。
既存のデータ収集アプローチはスパース、非接続、ノイズのトラジェクトリを生成し、スキルのバリエーションとトランジションの完全なスペクトルをキャプチャできない。
本稿では,実証技術間の潜在的な遷移を検出するStitched Trajectory Graph (STG) と,実証地区内の任意の状態に対するユニークな接続を確立するState Transition Field (STF) という2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2025-05-04T13:00:29Z) - Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning [22.54577327204281]
マルチモーダル感情分析は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。
既存の作品は、連続した時系列に固有のフレームレベルの冗長性を無視することが多く、ノイズを伴う不完全なモジュラリティ表現をもたらす。
本研究では,時間段階の分布変動を制約し,時間的時間的変動を効果的に捉えた時間的不変学習を提案する。
論文 参考訳(メタデータ) (2024-08-30T03:28:40Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Mapping the Multiverse of Latent Representations [17.2089620240192]
PRESTOは、潜在表現に依存する機械学習モデルのマルチバースをマッピングするための、原則化されたフレームワークである。
我々のフレームワークは、多種多様な機械学習手法の組み合わせから生じる潜伏空間を特徴付けるために永続的ホモロジーを使用する。
論文 参考訳(メタデータ) (2024-02-02T15:54:53Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Trusted Multi-View Classification with Dynamic Evidential Fusion [73.35990456162745]
信頼型マルチビュー分類(TMC)と呼ばれる新しいマルチビュー分類アルゴリズムを提案する。
TMCは、様々な視点をエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
理論的および実験的結果は、精度、堅牢性、信頼性において提案されたモデルの有効性を検証した。
論文 参考訳(メタデータ) (2022-04-25T03:48:49Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。