Fugu-MT 論文翻訳(概要): SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval

論文の概要: SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval

arxiv url: http://arxiv.org/abs/2401.13478v1
Date: Wed, 24 Jan 2024 14:23:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 14:31:38.587752
Title: SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval
Title（参考訳）: SciMMIR: 科学的マルチモーダル情報検索のベンチマーク
Authors: Siwei Wu, Yizhi Li, Kang Zhu, Ge Zhang, Yiming Liang, Kaijing Ma, Chenghao Xiao, Haoran Zhang, Bohao Yang, Wenhu Chen, Wenhao Huang, Noura Al Moubayed, Jie Fu, Chenghua Lin
Abstract要約: 科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
参考スコア（独自算出の注目度）: 65.47003941584244
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal information retrieval (MMIR) is a rapidly evolving field, where significant progress, particularly in image-text pairing, has been made through advanced representation learning and cross-modality alignment research. However, current benchmarks for evaluating MMIR performance in image-text pairing within the scientific domain show a notable gap, where chart and table images described in scholarly language usually do not play a significant role. To bridge this gap, we develop a specialised scientific MMIR (SciMMIR) benchmark by leveraging open-access paper collections to extract data relevant to the scientific domain. This benchmark comprises 530K meticulously curated image-text pairs, extracted from figures and tables with detailed captions in scientific documents. We further annotate the image-text pairs with two-level subset-subcategory hierarchy annotations to facilitate a more comprehensive evaluation of the baselines. We conducted zero-shot and fine-tuning evaluations on prominent multi-modal image-captioning and visual language models, such as CLIP and BLIP. Our analysis offers critical insights for MMIR in the scientific domain, including the impact of pre-training and fine-tuning settings and the influence of the visual and textual encoders. All our data and checkpoints are publicly available at https://github.com/Wusiwei0410/SciMMIR.
Abstract（参考訳）: マルチモーダル情報検索(MMIR)は、特に画像とテキストのペアリングにおいて、高度な表現学習と相互モーダルアライメント研究を通じて大きな進歩を遂げた、急速に発展する分野である。しかしながら、科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための現在のベンチマークでは、学術言語で記述されたチャートや表のイメージが通常重要な役割を果たさない、顕著なギャップが示されている。このギャップを埋めるために、オープンアクセス紙コレクションを活用し、科学領域に関連するデータを抽出する特別科学的MMIR(SciMMIR)ベンチマークを開発する。このベンチマークは、530kの精巧にキュレートされた画像テキストペアを含み、科学文書に詳細なキャプションを含む図形と表から抽出される。さらに,2レベルサブセットサブカテゴリ階層アノテーションを用いて画像テキストペアに注釈を付け,ベースラインのより包括的な評価を容易にする。 CLIP や BLIP などの視覚言語モデルと多モード画像キャプションを用いたゼロショットおよび微調整評価を行った。我々の分析は、事前学習と微調整の影響、視覚およびテキストエンコーダの影響など、科学領域におけるMMIRの重要な洞察を提供する。データとチェックポイントはすべてhttps://github.com/Wusiwei0410/SciMMIRで公開されています。

関連論文リスト

A Sketch+Text Composed Image Retrieval Dataset for Thangka [14.600552992453977]
Composed Image Retrieval (CIR)は、複数のクエリーモダリティを組み合わせることで画像検索を可能にする。 CIRThanは、Thangkaイメージ用のスケッチ+テキストコンポジションイメージ検索データセットである。
論文参考訳（メタデータ） (2026-02-09T09:14:29Z)
S1-MMAlign: A Large-Scale, Multi-Disciplinary Dataset for Scientific Figure-Text Understanding [16.351123624587384]
S1-MMAlignは1550万以上の高品質の画像テキストペアからなる大規模で多分野のマルチモーダルデータセットである。本稿では,Qwen-VL多モード大モデル系列を用いたAI対応セマンティックエンハンスメントパイプラインを提案する。
論文参考訳（メタデータ） (2026-01-01T08:54:51Z)
CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
Advancing Medical Representation Learning Through High-Quality Data [14.522284057070395]
PubMed Centralの高品質な医療データセットであるOpen-PMCを紹介する。インテキスト参照は、典型的にはキャプションに見られる抽象的な情報を超えて、よりリッチな医療コンテキストを提供する。我々は、検索とゼロショット分類タスクにわたるより大きなデータセットに対してOpen-PMCをベンチマークする。
論文参考訳（メタデータ） (2025-03-18T16:10:11Z)
A Comprehensive Survey on Composed Image Retrieval [54.54527281731775]
Composed Image Retrieval (CIR)は、ユーザがマルチモーダルクエリを使ってターゲットイメージを検索できる、新しくて困難なタスクである。現在、この分野のタイムリーな概要を提供するため、CIRの包括的なレビューは行われていない。我々は、ACM TOIS、SIGIR、CVPRなど、トップカンファレンスやジャーナルで120以上の出版物から洞察を合成する。
論文参考訳（メタデータ） (2025-02-19T01:37:24Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
MatViX: Multimodal Information Extraction from Visually Rich Articles [6.349779979863784]
材料科学では、研究論文から構造化情報を抽出することで、新しい素材の発見を加速することができる。 textscMatViXは、324ドルのフル長の調査記事と1688ドルの複雑な構造化ファイルからなるベンチマークです。これらのファイルは、テキスト、テーブル、フィギュアからフル長の文書から抽出され、MIEにとって包括的な課題となる。
論文参考訳（メタデータ） (2024-10-27T16:13:58Z)
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。この目的のために設計された新しいデータセットであるMMTabQAを紹介する。我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-08-25T15:17:43Z)
SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.18330795060871]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。データセット作成には自動および手動のキュレーションを使用します。 SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文参考訳（メタデータ） (2024-07-12T16:37:59Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
Multimodal Deep Learning for Scientific Imaging Interpretation [0.0]
本研究では,SEM(Scanning Electron Microscopy)画像と人間のような相互作用を言語的にエミュレートし,評価するための新しい手法を提案する。本稿では,ピアレビュー記事から収集したテキストデータとビジュアルデータの両方から洞察を抽出する。我々のモデル (GlassLLaVA) は, 正確な解釈, 重要な特徴の同定, 未確認のSEM画像の欠陥の検出に優れる。
論文参考訳（メタデータ） (2023-09-21T20:09:22Z)
Information Screening whilst Exploiting! Multimodal Relation Extraction with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-19T14:56:57Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。