論文の概要: Cyclic Vision-Language Manipulator: Towards Reliable and Fine-Grained Image Interpretation for Automated Report Generation
- arxiv url: http://arxiv.org/abs/2411.05261v2
- Date: Wed, 07 May 2025 01:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 14:59:11.702764
- Title: Cyclic Vision-Language Manipulator: Towards Reliable and Fine-Grained Image Interpretation for Automated Report Generation
- Title(参考訳): サイクリックビジョンランゲージマニピュレータ:自動レポート生成のための信頼性と微細な画像解釈を目指して
- Authors: Yingying Fang, Zihao Jin, Shaojie Guo, Jinda Liu, Zhiling Yue, Yijian Gao, Junzhi Ning, Zhi Li, Simon Walsh, Guang Yang,
- Abstract要約: Cyclic Vision-Language Manipulator CVLMは、元のX線と指定されたレポートジェネレータから操作されたX線を生成するモジュールである。
CVLMの本質は、操作したX線をレポートジェネレータに循環させることで、X線生成のためのレポートに予め注入された変更と一致した変更レポートを生成することである。
- 参考スコア(独自算出の注目度): 7.163217901775776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant advancements in automated report generation, the opaqueness of text interpretability continues to cast doubt on the reliability of the content produced. This paper introduces a novel approach to identify specific image features in X-ray images that influence the outputs of report generation models. Specifically, we propose Cyclic Vision-Language Manipulator CVLM, a module to generate a manipulated X-ray from an original X-ray and its report from a designated report generator. The essence of CVLM is that cycling manipulated X-rays to the report generator produces altered reports aligned with the alterations pre-injected into the reports for X-ray generation, achieving the term "cyclic manipulation". This process allows direct comparison between original and manipulated X-rays, clarifying the critical image features driving changes in reports and enabling model users to assess the reliability of the generated texts. Empirical evaluations demonstrate that CVLM can identify more precise and reliable features compared to existing explanation methods, significantly enhancing the transparency and applicability of AI-generated reports.
- Abstract(参考訳): 自動レポート生成の大幅な進歩にもかかわらず、テキストの解釈可能性の不透明さは、生成したコンテンツの信頼性に疑問を呈し続けている。
本稿では、レポート生成モデルの出力に影響を与えるX線画像の特徴を特定するための新しいアプローチを提案する。
具体的には、元のX線から操作されたX線を生成するモジュールであるサイクリックビジョンランゲージマニピュレータCVLMと、指定されたレポートジェネレータからの報告を提案する。
CVLMの本質は、操作されたX線をレポートジェネレータに循環させることで、X線生成のためのレポートに予め注入された変更と整合したレポートを生成し、「循環的操作」という用語を達成することである。
このプロセスにより、元のX線と操作されたX線を直接比較し、レポートの変更を駆動する重要な画像の特徴を明確にし、モデルユーザーが生成されたテキストの信頼性を評価することができる。
実験的な評価は、CVLMが既存の説明手法よりも正確で信頼性の高い特徴を識別できることを示し、AI生成レポートの透明性と適用性を大幅に向上させる。
関連論文リスト
- Transparent Neighborhood Approximation for Text Classifier Explanation [12.803856207094615]
本稿では,ブラックボックステキストジェネレータの代替として,確率ベースの編集手法を提案する。
提案手法であるXPROBは,実世界の2つのデータセットで行った評価に基づいて,競争性能を示す。
論文 参考訳(メタデータ) (2024-11-25T10:10:09Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - Generating Faithful Text From a Knowledge Graph with Noisy Reference
Text [26.6775578332187]
与えられたグラフから忠実な自然言語テキストを生成することができるKG-to-text生成モデルを開発した。
まず、コントラスト学習を利用して、テキスト内の忠実な情報と幻覚的な情報を区別するモデルの能力を強化する。
第2に、制御可能なテキスト生成技術を用いて、デコーダに生成したテキストの幻覚レベルを制御する権限を与える。
論文 参考訳(メタデータ) (2023-08-12T07:12:45Z) - Advancing Precise Outline-Conditioned Text Generation with Task Duality
and Explicit Outline Control [15.881568820009797]
そこで我々は,Precise Outline-conditioned Generationと呼ばれる新しいテキスト生成タスクを導入する。
このタスクは、特定の文レベルのアウトラインに基づいてストーリーを生成する必要がある。
本稿では,要約と生成のタスク双対性を生かした,明示的なアウトライン利用制御手法と新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T18:33:52Z) - DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven
Text-to-Image Generation [50.39533637201273]
主観駆動型テキスト・ツー・イメージ生成のためのID保存型アンタングル型チューニングフレームワークであるDisenBoothを提案する。
DisenBoothは、ID保存の埋め込みとアイデンティティ関連の埋め込みを組み合わせることで、より世代的柔軟性と制御性を示す。
論文 参考訳(メタデータ) (2023-05-05T09:08:25Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z) - Improving Adversarial Text Generation by Modeling the Distant Future [155.83051741029732]
テキスト計画手法を考察し、上記の問題を緩和するためのモデルに基づく模倣学習手法を提案する。
本稿では,より長い地平線上の生成過程に焦点をあてる新しいガイドネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-04T05:45:13Z) - Towards Faithful Neural Table-to-Text Generation with Content-Matching
Constraints [63.84063384518667]
そこで本研究では,トランスフォーマーをベースとした新たな生成フレームワークを提案する。
忠実度を強制する手法の中核となる技術は、テーブル-テキストの最適トランスポート・マッチング・ロスである。
忠実度を評価するため,テーブル・ツー・テキスト生成問題に特化した新しい自動尺度を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:54:26Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。