論文の概要: Progressive Transformer-Based Generation of Radiology Reports
- arxiv url: http://arxiv.org/abs/2102.09777v1
- Date: Fri, 19 Feb 2021 07:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 23:11:45.167944
- Title: Progressive Transformer-Based Generation of Radiology Reports
- Title(参考訳): プログレッシブトランスフォーマティブによる放射線レポートの生成
- Authors: Farhad Nooralahzadeh, Nicolas Perez Gonzalez, Thomas Frauenfelder,
Koji Fujimoto, Michael Krauthammer
- Abstract要約: カリキュラム学習に触発され、連続して(すなわち)提案する。
image-to-text-to-text)生成フレームワーク。
画像から一度に全放射能レポートを生成するのとは対照的に、モデルは最初の段階で画像から大域的な概念を生成し、それらをより細かくコヒーレントなテキストに再構成する。
- 参考スコア(独自算出の注目度): 0.5512295869673146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by Curriculum Learning, we propose a consecutive (i.e.
image-to-text-to-text) generation framework where we divide the problem of
radiology report generation into two steps. Contrary to generating the full
radiology report from the image at once, the model generates global concepts
from the image in the first step and then reforms them into finer and coherent
texts using transformer-based architecture. We follow the transformer-based
sequence-to-sequence paradigm at each step. We improve upon the
state-of-the-art on two benchmark datasets.
- Abstract(参考訳): カリキュラム学習に触発され、連続して(すなわち)提案する。
画像からテキストへ)生成フレームワーク。放射線レポート生成の問題を2つのステップに分割する。
画像から完全な放射線学レポートを生成するのとは対照的に、このモデルは最初のステップで画像からグローバルな概念を生成し、変換器ベースのアーキテクチャを用いてより微細で一貫性のあるテキストに変換する。
各ステップで変換器に基づくシーケンス・ツー・シーケンスのパラダイムに従う。
2つのベンチマークデータセットの最先端性を改善する。
関連論文リスト
- Textual Inversion and Self-supervised Refinement for Radiology Report Generation [25.779160968864435]
放射線学レポート作成のためのテキスト・インバージョン・セルフ・教師付きリファインメント(TISR)を提案する。
TISRは、画像を擬似語として表現することで、テキストと画像を同じ空間に投影し、相互モデリングのギャップをなくす。
広範に利用されている2つの公開データセットの実験を行い、様々なベースラインで大幅に改善した。
論文 参考訳(メタデータ) (2024-05-31T03:47:44Z) - DSE-GAN: Dynamic Semantic Evolution Generative Adversarial Network for
Text-to-Image Generation [71.87682778102236]
本稿では,動的セマンティック進化GAN(DSE-GAN)を提案する。
DSE-GANは2つの広く使用されているベンチマークで7.48%と37.8%のFID改善を達成した。
論文 参考訳(メタデータ) (2022-09-03T06:13:26Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z) - ERNIE-ViLG: Unified Generative Pre-training for Bidirectional
Vision-Language Generation [22.47279425592133]
ERNIE-ViLGは,双方向画像テキスト生成のための統合型事前学習フレームワークである。
テキスト・ツー・イメージ生成プロセスにおいて,視覚的シーケンス生成器と画像再構成器を協調的に学習するエンドツーエンド・トレーニング手法を提案する。
我々は,1億4500万(中国語)の画像テキストペアからなる大規模データセット上で,10ビリオンパラメータERNIE-ViLGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-12-31T03:53:33Z) - Unifying Multimodal Transformer for Bi-directional Image and Text
Generation [8.547205551848462]
本研究では,自然な双方向タスクである画像・テキスト・テキスト・画像世代の共同学習について検討する。
双方向タスクを共同で研究するために,単一のマルチモーダルモデルに基づく統合画像・テキスト生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-19T06:01:24Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - TransVG: End-to-End Visual Grounding with Transformers [102.11922622103613]
本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-04-17T13:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。