論文の概要: MedICaT: A Dataset of Medical Images, Captions, and Textual References
- arxiv url: http://arxiv.org/abs/2010.06000v1
- Date: Mon, 12 Oct 2020 19:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 05:47:25.355936
- Title: MedICaT: A Dataset of Medical Images, Captions, and Textual References
- Title(参考訳): MedICaT:医療画像、キャプション、テキスト参照のデータセット
- Authors: Sanjay Subramanian, Lucy Lu Wang, Sachin Mehta, Ben Bogin, Madeleine
van Zuylen, Sravanthi Parasa, Sameer Singh, Matt Gardner, Hannaneh Hajishirzi
- Abstract要約: 以前の研究は、画像がテキストにどのように関係しているかを理解するのではなく、図形コンテンツを分類することに焦点を当てていた。
MedICaTは131Kのオープンアクセスバイオメディカルペーパーから217Kの画像で構成されている。
MedICaTを用いて,複合図形におけるサブフィギュアとサブキャプションアライメントの課題を紹介する。
- 参考スコア(独自算出の注目度): 71.3960667004975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the relationship between figures and text is key to scientific
document understanding. Medical figures in particular are quite complex, often
consisting of several subfigures (75% of figures in our dataset), with detailed
text describing their content. Previous work studying figures in scientific
papers focused on classifying figure content rather than understanding how
images relate to the text. To address challenges in figure retrieval and
figure-to-text alignment, we introduce MedICaT, a dataset of medical images in
context. MedICaT consists of 217K images from 131K open access biomedical
papers, and includes captions, inline references for 74% of figures, and
manually annotated subfigures and subcaptions for a subset of figures. Using
MedICaT, we introduce the task of subfigure to subcaption alignment in compound
figures and demonstrate the utility of inline references in image-text
matching. Our data and code can be accessed at
https://github.com/allenai/medicat.
- Abstract(参考訳): 図形とテキストの関係を理解することは、科学的文書理解の鍵となる。
特に医学的な数字は非常に複雑で、しばしばいくつかのサブフィギュア(データセットの75%)で構成され、その内容を記述する詳細なテキストがある。
科学論文における図形の研究は、画像がテキストにどのように関係しているかを理解することよりも、図形内容の分類に重点を置いていた。
図形検索と図形テキストアライメントの課題に対処するために、コンテキスト内の医療画像のデータセットであるMedICaTを導入する。
MedICaTは131Kのオープンアクセスバイオメディカルペーパーからの217Kイメージで構成されており、キャプション、74%のフィギュアのインライン参照、サブフィギュアのサブフィギュアとサブキャプションが手作業で注釈付けされている。
MedICaTを用いて、複合図形におけるサブフィギュアとサブキャプションアライメントのタスクを導入し、画像テキストマッチングにおけるインライン参照の有用性を実証する。
私たちのデータとコードはhttps://github.com/allenai/medicat.comでアクセスできます。
関連論文リスト
- DOCCI: Descriptions of Connected and Contrasting Images [58.377060316967864]
Connected and Contrasting Images (DOCCI) は、15k画像のための長い人間の注釈付き英語記述のデータセットである。
我々は、画像毎の包括的な記述を作成するよう、人間のアノテータに指示する。
DOCCIはテキスト・画像生成に有用なテストベッドであることを示す。
論文 参考訳(メタデータ) (2024-04-30T17:56:24Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - MLIP: Medical Language-Image Pre-training with Masked Local
Representation Learning [20.33625985769796]
既存のコントラスト言語画像事前学習は、豊富な画像とテキストのペアをマッチングすることで、共同表現を学習することを目的としている。
本稿では,限られた画像テキストの医療データをより効率的に活用する医用言語-画像事前学習フレームワークを提案する。
評価の結果、MLIPはゼロ/フェーショット分類や少数ショット分割タスクにおいて、従来よりも大きなマージンで性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-01-03T07:54:13Z) - Understanding Social Media Cross-Modality Discourse in Linguistic Space [26.19949919969774]
本稿では、人間の読者が画像とテキストの理解をどう組み合わせるかを反映した、クロスモーダルな談話という新しい概念を提案する。
我々は,手動で注釈付き談話ラベルを付けた16Kのマルチメディアツイートを含む,最初のデータセットを構築した。
論文 参考訳(メタデータ) (2023-02-26T13:04:04Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Using Text to Teach Image Retrieval [47.72498265721957]
ニューラルネットワークを用いて学習した画像の特徴空間をグラフとして表現するために,画像多様体の概念に基づいて構築する。
我々は、幾何学的に整列したテキストで多様体のサンプルを増補し、大量の文を使って画像について教える。
実験結果から, 結合埋め込み多様体は頑健な表現であり, 画像検索を行うためのより良い基礎となることが示唆された。
論文 参考訳(メタデータ) (2020-11-19T16:09:14Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。