論文の概要: Cyclic Vision-Language Manipulator: Towards Reliable and Fine-Grained Image Interpretation for Automated Report Generation
- arxiv url: http://arxiv.org/abs/2411.05261v2
- Date: Wed, 07 May 2025 01:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 14:59:11.702764
- Title: Cyclic Vision-Language Manipulator: Towards Reliable and Fine-Grained Image Interpretation for Automated Report Generation
- Title(参考訳): サイクリックビジョンランゲージマニピュレータ:自動レポート生成のための信頼性と微細な画像解釈を目指して
- Authors: Yingying Fang, Zihao Jin, Shaojie Guo, Jinda Liu, Zhiling Yue, Yijian Gao, Junzhi Ning, Zhi Li, Simon Walsh, Guang Yang,
- Abstract要約: Cyclic Vision-Language Manipulator CVLMは、元のX線と指定されたレポートジェネレータから操作されたX線を生成するモジュールである。
CVLMの本質は、操作したX線をレポートジェネレータに循環させることで、X線生成のためのレポートに予め注入された変更と一致した変更レポートを生成することである。
- 参考スコア(独自算出の注目度): 7.163217901775776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant advancements in automated report generation, the opaqueness of text interpretability continues to cast doubt on the reliability of the content produced. This paper introduces a novel approach to identify specific image features in X-ray images that influence the outputs of report generation models. Specifically, we propose Cyclic Vision-Language Manipulator CVLM, a module to generate a manipulated X-ray from an original X-ray and its report from a designated report generator. The essence of CVLM is that cycling manipulated X-rays to the report generator produces altered reports aligned with the alterations pre-injected into the reports for X-ray generation, achieving the term "cyclic manipulation". This process allows direct comparison between original and manipulated X-rays, clarifying the critical image features driving changes in reports and enabling model users to assess the reliability of the generated texts. Empirical evaluations demonstrate that CVLM can identify more precise and reliable features compared to existing explanation methods, significantly enhancing the transparency and applicability of AI-generated reports.
- Abstract(参考訳): 自動レポート生成の大幅な進歩にもかかわらず、テキストの解釈可能性の不透明さは、生成したコンテンツの信頼性に疑問を呈し続けている。
本稿では、レポート生成モデルの出力に影響を与えるX線画像の特徴を特定するための新しいアプローチを提案する。
具体的には、元のX線から操作されたX線を生成するモジュールであるサイクリックビジョンランゲージマニピュレータCVLMと、指定されたレポートジェネレータからの報告を提案する。
CVLMの本質は、操作されたX線をレポートジェネレータに循環させることで、X線生成のためのレポートに予め注入された変更と整合したレポートを生成し、「循環的操作」という用語を達成することである。
このプロセスにより、元のX線と操作されたX線を直接比較し、レポートの変更を駆動する重要な画像の特徴を明確にし、モデルユーザーが生成されたテキストの信頼性を評価することができる。
実験的な評価は、CVLMが既存の説明手法よりも正確で信頼性の高い特徴を識別できることを示し、AI生成レポートの透明性と適用性を大幅に向上させる。
関連論文リスト
- DART: Disease-aware Image-Text Alignment and Self-correcting Re-alignment for Trustworthy Radiology Report Generation [2.9390507641602364]
本稿では,DART (Trustworthy Radiology Report Generation) のための病的画像テキストアライメントと自己修正型アライメントを提案する。
提案フレームワークは,2つの広く使用されているベンチマークにおいて,レポート生成と臨床効果指標の両面で,これまでのアプローチを上回り,最先端の結果を達成している。
論文 参考訳(メタデータ) (2025-04-16T05:39:08Z) - Activating Associative Disease-Aware Vision Token Memory for LLM-Based X-ray Report Generation [54.631356899598956]
本稿では,専門医が医療報告を書く過程を効果的に模倣する,新しい連想型記憶強調X線レポート生成モデルを提案する。
我々は,病気関連トークンのメモリアソシエーションを確立するために,ビジュアルホップフィールドネットワークを使用し,レポートホップフィールドネットワークを用いてレポートメモリ情報を検索する。
論文 参考訳(メタデータ) (2025-01-07T01:19:48Z) - Transparent Neighborhood Approximation for Text Classifier Explanation [12.803856207094615]
本稿では,ブラックボックステキストジェネレータの代替として,確率ベースの編集手法を提案する。
提案手法であるXPROBは,実世界の2つのデータセットで行った評価に基づいて,競争性能を示す。
論文 参考訳(メタデータ) (2024-11-25T10:10:09Z) - Contrastive Learning with Counterfactual Explanations for Radiology Report Generation [83.30609465252441]
放射線学レポート生成のためのtextbfCountertextbfFactual textbfExplanations-based framework (CoFE) を提案する。
反現実的な説明は、アルゴリズムによってなされた決定をどのように変えられるかを理解するための強力なツールとして、シナリオが何であるかを問うことによって役立ちます。
2つのベンチマークの実験では、反ファクト的な説明を活用することで、CoFEは意味的に一貫性があり、事実的に完全なレポートを生成することができる。
論文 参考訳(メタデータ) (2024-07-19T17:24:25Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - Structural Entities Extraction and Patient Indications Incorporation for Chest X-ray Report Generation [10.46031380503486]
胸部X線レポート生成のための新しい方法である textbfStructural textbfEntities 抽出法と textbfIncorporation (SEI) を考案した。
我々は、レポートにおけるプレゼンテーションスタイルの語彙を排除するために、構造エンティティ抽出(SEE)アプローチを採用する。
我々は,X線画像,類似の歴史的症例,患者固有の指標からの情報を統合するクロスモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T01:29:47Z) - SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models [9.390882250428305]
放射線学報告生成(R2Gen)は、マルチモーダル大言語モデル(MLLM)が正確で一貫性のある放射線学レポートの作成をいかに自動化できるかを示す。
既存の方法は、しばしば画像内容を正確に反映しないテキストベースのレポートで詳細を幻覚させる。
本稿では,自己修復機構をMLLMフレームワークに統合することにより,R2Genタスクを改善する新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-27T13:46:23Z) - Fine-Grained Image-Text Alignment in Medical Imaging Enables Explainable Cyclic Image-Report Generation [91.63262242041695]
本稿では,胸部X線画像領域と医療報告における単語を関連付けるために,適応パッチワードマッチング(AdaMatch)モデルを提案する。
AdaMatchは、適応パッチと単語のきめ細かい関係を利用して、対応する単語で特定の画像領域の説明を提供する。
CXRレポート生成タスクの明示的な説明性を提供するため,循環型CXRレポート生成のためのAdaMatchベースの双方向大言語モデルを提案する。
論文 参考訳(メタデータ) (2023-12-13T11:47:28Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Generating Faithful Text From a Knowledge Graph with Noisy Reference
Text [26.6775578332187]
与えられたグラフから忠実な自然言語テキストを生成することができるKG-to-text生成モデルを開発した。
まず、コントラスト学習を利用して、テキスト内の忠実な情報と幻覚的な情報を区別するモデルの能力を強化する。
第2に、制御可能なテキスト生成技術を用いて、デコーダに生成したテキストの幻覚レベルを制御する権限を与える。
論文 参考訳(メタデータ) (2023-08-12T07:12:45Z) - Fact-Checking of AI-Generated Reports [11.129556125406504]
本稿では,関連画像を用いたAI生成レポートのファクトチェック手法を提案する。
具体的には,本研究は,実文と偽文とを区別し,実文と偽文とを関連づけることによって,実文と偽文とを区別する。
論文 参考訳(メタデータ) (2023-07-27T05:49:24Z) - Advancing Precise Outline-Conditioned Text Generation with Task Duality
and Explicit Outline Control [15.881568820009797]
そこで我々は,Precise Outline-conditioned Generationと呼ばれる新しいテキスト生成タスクを導入する。
このタスクは、特定の文レベルのアウトラインに基づいてストーリーを生成する必要がある。
本稿では,要約と生成のタスク双対性を生かした,明示的なアウトライン利用制御手法と新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T18:33:52Z) - DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven
Text-to-Image Generation [50.39533637201273]
主観駆動型テキスト・ツー・イメージ生成のためのID保存型アンタングル型チューニングフレームワークであるDisenBoothを提案する。
DisenBoothは、ID保存の埋め込みとアイデンティティ関連の埋め込みを組み合わせることで、より世代的柔軟性と制御性を示す。
論文 参考訳(メタデータ) (2023-05-05T09:08:25Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Cyclic Generative Adversarial Networks With Congruent Image-Report
Generation For Explainable Medical Image Analysis [5.6512908295414]
医用画像の説明可能なラベリングと解釈のための新しい枠組みを提案する。
本研究の目的は、胸部X線画像を診断するモデルの出力について、信頼できる、忠実な説明を生成することである。
論文 参考訳(メタデータ) (2022-11-16T12:41:21Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z) - Chest X-ray Report Generation through Fine-Grained Label Learning [46.352966049776875]
画像から詳細な所見を学習する領域認識自動胸部X線診断レポート生成アルゴリズムを提案する。
また、画像にそのような記述子を割り当てる自動ラベリングアルゴリズムを開発し、発見の粗い記述ときめ細かい記述の両方を認識する新しいディープラーニングネットワークを構築した。
論文 参考訳(メタデータ) (2020-07-27T19:50:56Z) - Improving Adversarial Text Generation by Modeling the Distant Future [155.83051741029732]
テキスト計画手法を考察し、上記の問題を緩和するためのモデルに基づく模倣学習手法を提案する。
本稿では,より長い地平線上の生成過程に焦点をあてる新しいガイドネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-04T05:45:13Z) - Towards Faithful Neural Table-to-Text Generation with Content-Matching
Constraints [63.84063384518667]
そこで本研究では,トランスフォーマーをベースとした新たな生成フレームワークを提案する。
忠実度を強制する手法の中核となる技術は、テーブル-テキストの最適トランスポート・マッチング・ロスである。
忠実度を評価するため,テーブル・ツー・テキスト生成問題に特化した新しい自動尺度を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:54:26Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。