論文の概要: Unifying Scientific Communication: Fine-Grained Correspondence Across Scientific Media
- arxiv url: http://arxiv.org/abs/2605.05831v2
- Date: Mon, 11 May 2026 06:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 19:24:01.328315
- Title: Unifying Scientific Communication: Fine-Grained Correspondence Across Scientific Media
- Title(参考訳): 科学コミュニケーションの統一:科学メディア全体での微粒化対応
- Authors: Megha Mariam K. M, Vineeth N. Balasubramanian, C. V. Jawahar,
- Abstract要約: 科学知識のコミュニケーションはますます多モーダルになりつつある。
フォーマット間の明示的なリンクの欠如は、概念、視覚、説明がどのように対応するかを追跡するのを難しくする。
研究論文、プレゼンテーションビデオ、解説ビデオ、同じ作品のスライドを統合する最初のベンチマーク。
我々は, 埋め込み型および視覚言語モデルを用いて, 微粒なクロスフォーマット対応を見つける能力を評価する。
- 参考スコア(独自算出の注目度): 40.40617019402065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The communication of scientific knowledge has become increasingly multimodal, spanning text, visuals, and speech through materials such as research papers, slides, and recorded presentations. These different representations collectively convey a study's reasoning, results, and insights, offering complementary perspectives that enrich understanding. However, despite their shared purpose, such materials are rarely connected in a structured way. The absence of explicit links across formats makes it difficult to trace how concepts, visuals, and explanations correspond, limiting unified exploration and analysis of research content. To address this gap, we introduce the Multimodal Conference Dataset (MCD), the first benchmark that integrates research papers, presentation videos, explanatory videos, and slides from the same works. We evaluate a range of embedding-based and vision-language models to assess their ability to discover fine-grained cross-format correspondences, establishing the first systematic benchmark for this task. Our results show that vision-language models are robust but struggle with fine-grained alignment, while embedding-based models capture text-visual correspondences well but equations and symbolic content form distinct clusters in the embedding space. These findings highlight both the strengths and limitations of current approaches and point to key directions for future research in multimodal scientific understanding. To ensure reproducibility, we release the resources for MCD at https://github.com/meghamariamkm2002/MCD
- Abstract(参考訳): 科学知識のコミュニケーションは、研究論文、スライド、記録されたプレゼンテーションなどの資料を通じて、テキスト、視覚、スピーチにまたがって、ますます多モーダルになりつつある。
これらの異なる表現は、研究の推論、結果、洞察をまとめて伝え、理解を深める補完的な視点を提供する。
しかし、それらの共通目的にもかかわらず、そのような材料は構造的に接続されることは滅多にない。
フォーマット間の明示的なリンクがないため、概念、視覚、説明がどのように対応するのかを追跡できなくなり、研究内容の統一的な探索と分析が制限される。
このギャップに対処するために、研究論文、プレゼンテーションビデオ、解説ビデオ、スライドを統合した最初のベンチマークであるMultimodal Conference Dataset(MCD)を紹介する。
本研究は, 組込み型および視覚言語モデルを用いて, 微粒なクロスフォーマット対応を見つける能力の評価を行い, この課題に対する最初のシステマティック・ベンチマークを確立することを目的とする。
この結果から,視覚言語モデルは頑健だが微妙なアライメントに苦しむ一方で,埋め込み型モデルはテキスト視覚対応をよく捉えているが,方程式や記号の内容は埋め込み空間の異なるクラスタを形成することがわかった。
これらの知見は、現在のアプローチの強みと限界と、マルチモーダルな科学的理解における将来の研究の鍵となる方向性の両方を浮き彫りにしている。
再現性を確保するため、私たちはMCDのリソースをhttps://github.com/meghamariamkm2002/MCDでリリースします。
関連論文リスト
- Large-Scale Multidimensional Knowledge Profiling of Scientific Literature [46.15403461273178]
2020年から2025年の間に、22の主要なカンファレンスから10万以上の論文をまとめてまとめました。
分析では,安全性の向上,マルチモーダル推論,エージェント指向研究など,いくつかの顕著な変化に注目した。
これらの発見は、AI研究の進化に関するエビデンスベースの見解を提供し、より広範なトレンドを理解し、新たな方向性を特定するためのリソースを提供する。
論文 参考訳(メタデータ) (2026-01-21T16:47:05Z) - Multimodal Fact Checking with Unified Visual, Textual, and Contextual Representations [2.139909491081949]
我々は"MultiCheck"と呼ばれる微細なマルチモーダル事実検証のための統一的なフレームワークを提案する。
我々のアーキテクチャは、テキストと画像のための専用エンコーダと、要素間相互作用を用いた相互関係をキャプチャする融合モジュールを組み合わせる。
我々はFactify 2データセットに対する我々のアプローチを評価し、F1の重み付けスコア0.84を達成し、ベースラインを大幅に上回った。
論文 参考訳(メタデータ) (2025-08-07T07:36:53Z) - Re-calibrating methodologies in social media research: Challenge the visual, work with Speech [0.0]
本稿は,ソーシャルメディア研究者が分析において,音声に基づくデータに効果的に関与する方法を考察する。
我々の方法論的レパートリーの拡大は、プラットフォーム化されたコンテンツのより豊かな解釈を可能にすると結論づける。
論文 参考訳(メタデータ) (2024-12-17T18:47:57Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。