論文の概要: Decoding Report Generators: A Cyclic Vision-Language Adapter for Counterfactual Explanations
- arxiv url: http://arxiv.org/abs/2411.05261v1
- Date: Fri, 08 Nov 2024 01:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:45.643493
- Title: Decoding Report Generators: A Cyclic Vision-Language Adapter for Counterfactual Explanations
- Title(参考訳): デコード・レポート・ジェネレータ:非現実的説明のための循環型視覚言語アダプタ
- Authors: Yingying Fang, Zihao Jin, Shaojie Guo, Jinda Liu, Yijian Gao, Junzhi Ning, Zhiling Yue, Zhi Li, Simon LF Walsh, Guang Yang,
- Abstract要約: 本稿では,レポート生成モデルにより生成されたテキストの説明可能性を高めるための革新的なアプローチを提案する。
本手法では, 周期的テキスト操作と視覚的比較を用いて, オリジナルコンテンツの特徴を識別し, 解明する。
本稿は,AIレポートの解釈可能性と透明性を向上する手法の可能性を示すものである。
- 参考スコア(独自算出の注目度): 7.163217901775776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant advancements in report generation methods, a critical limitation remains: the lack of interpretability in the generated text. This paper introduces an innovative approach to enhance the explainability of text generated by report generation models. Our method employs cyclic text manipulation and visual comparison to identify and elucidate the features in the original content that influence the generated text. By manipulating the generated reports and producing corresponding images, we create a comparative framework that highlights key attributes and their impact on the text generation process. This approach not only identifies the image features aligned to the generated text but also improves transparency but also provides deeper insights into the decision-making mechanisms of the report generation models. Our findings demonstrate the potential of this method to significantly enhance the interpretability and transparency of AI-generated reports.
- Abstract(参考訳): レポート生成手法の大幅な進歩にもかかわらず、重要な制限が残っている: 生成されたテキストの解釈可能性の欠如。
本稿では,レポート生成モデルにより生成されたテキストの説明可能性を高めるための革新的なアプローチを提案する。
本手法では, 周期的テキスト操作と視覚的比較を用いて, 生成したテキストに影響を及ぼすオリジナルコンテンツの特徴を特定し, 解明する。
生成したレポートの操作と対応する画像の生成により、キー属性とテキスト生成プロセスへの影響をハイライトする比較フレームワークを作成する。
このアプローチは、生成されたテキストに整合した画像の特徴を識別するだけでなく、透明性を向上させるとともに、レポート生成モデルの意思決定メカニズムに関する深い洞察を提供する。
本研究は,AIレポートの解釈可能性と透明性を著しく向上させる手法の可能性を示すものである。
関連論文リスト
- DART: Disease-aware Image-Text Alignment and Self-correcting Re-alignment for Trustworthy Radiology Report Generation [2.9390507641602364]
本稿では,DART (Trustworthy Radiology Report Generation) のための病的画像テキストアライメントと自己修正型アライメントを提案する。
提案フレームワークは,2つの広く使用されているベンチマークにおいて,レポート生成と臨床効果指標の両面で,これまでのアプローチを上回り,最先端の結果を達成している。
論文 参考訳(メタデータ) (2025-04-16T05:39:08Z) - Activating Associative Disease-Aware Vision Token Memory for LLM-Based X-ray Report Generation [54.631356899598956]
本稿では,専門医が医療報告を書く過程を効果的に模倣する,新しい連想型記憶強調X線レポート生成モデルを提案する。
我々は,病気関連トークンのメモリアソシエーションを確立するために,ビジュアルホップフィールドネットワークを使用し,レポートホップフィールドネットワークを用いてレポートメモリ情報を検索する。
論文 参考訳(メタデータ) (2025-01-07T01:19:48Z) - Transparent Neighborhood Approximation for Text Classifier Explanation [12.803856207094615]
本稿では,ブラックボックステキストジェネレータの代替として,確率ベースの編集手法を提案する。
提案手法であるXPROBは,実世界の2つのデータセットで行った評価に基づいて,競争性能を示す。
論文 参考訳(メタデータ) (2024-11-25T10:10:09Z) - Contrastive Learning with Counterfactual Explanations for Radiology Report Generation [83.30609465252441]
放射線学レポート生成のためのtextbfCountertextbfFactual textbfExplanations-based framework (CoFE) を提案する。
反現実的な説明は、アルゴリズムによってなされた決定をどのように変えられるかを理解するための強力なツールとして、シナリオが何であるかを問うことによって役立ちます。
2つのベンチマークの実験では、反ファクト的な説明を活用することで、CoFEは意味的に一貫性があり、事実的に完全なレポートを生成することができる。
論文 参考訳(メタデータ) (2024-07-19T17:24:25Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - Structural Entities Extraction and Patient Indications Incorporation for Chest X-ray Report Generation [10.46031380503486]
胸部X線レポート生成のための新しい方法である textbfStructural textbfEntities 抽出法と textbfIncorporation (SEI) を考案した。
我々は、レポートにおけるプレゼンテーションスタイルの語彙を排除するために、構造エンティティ抽出(SEE)アプローチを採用する。
我々は,X線画像,類似の歴史的症例,患者固有の指標からの情報を統合するクロスモーダル融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T01:29:47Z) - SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models [9.390882250428305]
放射線学報告生成(R2Gen)は、マルチモーダル大言語モデル(MLLM)が正確で一貫性のある放射線学レポートの作成をいかに自動化できるかを示す。
既存の方法は、しばしば画像内容を正確に反映しないテキストベースのレポートで詳細を幻覚させる。
本稿では,自己修復機構をMLLMフレームワークに統合することにより,R2Genタスクを改善する新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-27T13:46:23Z) - Fine-Grained Image-Text Alignment in Medical Imaging Enables Explainable Cyclic Image-Report Generation [91.63262242041695]
本稿では,胸部X線画像領域と医療報告における単語を関連付けるために,適応パッチワードマッチング(AdaMatch)モデルを提案する。
AdaMatchは、適応パッチと単語のきめ細かい関係を利用して、対応する単語で特定の画像領域の説明を提供する。
CXRレポート生成タスクの明示的な説明性を提供するため,循環型CXRレポート生成のためのAdaMatchベースの双方向大言語モデルを提案する。
論文 参考訳(メタデータ) (2023-12-13T11:47:28Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Generating Faithful Text From a Knowledge Graph with Noisy Reference
Text [26.6775578332187]
与えられたグラフから忠実な自然言語テキストを生成することができるKG-to-text生成モデルを開発した。
まず、コントラスト学習を利用して、テキスト内の忠実な情報と幻覚的な情報を区別するモデルの能力を強化する。
第2に、制御可能なテキスト生成技術を用いて、デコーダに生成したテキストの幻覚レベルを制御する権限を与える。
論文 参考訳(メタデータ) (2023-08-12T07:12:45Z) - Fact-Checking of AI-Generated Reports [11.129556125406504]
本稿では,関連画像を用いたAI生成レポートのファクトチェック手法を提案する。
具体的には,本研究は,実文と偽文とを区別し,実文と偽文とを関連づけることによって,実文と偽文とを区別する。
論文 参考訳(メタデータ) (2023-07-27T05:49:24Z) - Advancing Precise Outline-Conditioned Text Generation with Task Duality
and Explicit Outline Control [15.881568820009797]
そこで我々は,Precise Outline-conditioned Generationと呼ばれる新しいテキスト生成タスクを導入する。
このタスクは、特定の文レベルのアウトラインに基づいてストーリーを生成する必要がある。
本稿では,要約と生成のタスク双対性を生かした,明示的なアウトライン利用制御手法と新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T18:33:52Z) - DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven
Text-to-Image Generation [50.39533637201273]
主観駆動型テキスト・ツー・イメージ生成のためのID保存型アンタングル型チューニングフレームワークであるDisenBoothを提案する。
DisenBoothは、ID保存の埋め込みとアイデンティティ関連の埋め込みを組み合わせることで、より世代的柔軟性と制御性を示す。
論文 参考訳(メタデータ) (2023-05-05T09:08:25Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Cyclic Generative Adversarial Networks With Congruent Image-Report
Generation For Explainable Medical Image Analysis [5.6512908295414]
医用画像の説明可能なラベリングと解釈のための新しい枠組みを提案する。
本研究の目的は、胸部X線画像を診断するモデルの出力について、信頼できる、忠実な説明を生成することである。
論文 参考訳(メタデータ) (2022-11-16T12:41:21Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z) - Chest X-ray Report Generation through Fine-Grained Label Learning [46.352966049776875]
画像から詳細な所見を学習する領域認識自動胸部X線診断レポート生成アルゴリズムを提案する。
また、画像にそのような記述子を割り当てる自動ラベリングアルゴリズムを開発し、発見の粗い記述ときめ細かい記述の両方を認識する新しいディープラーニングネットワークを構築した。
論文 参考訳(メタデータ) (2020-07-27T19:50:56Z) - Improving Adversarial Text Generation by Modeling the Distant Future [155.83051741029732]
テキスト計画手法を考察し、上記の問題を緩和するためのモデルに基づく模倣学習手法を提案する。
本稿では,より長い地平線上の生成過程に焦点をあてる新しいガイドネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-04T05:45:13Z) - Towards Faithful Neural Table-to-Text Generation with Content-Matching
Constraints [63.84063384518667]
そこで本研究では,トランスフォーマーをベースとした新たな生成フレームワークを提案する。
忠実度を強制する手法の中核となる技術は、テーブル-テキストの最適トランスポート・マッチング・ロスである。
忠実度を評価するため,テーブル・ツー・テキスト生成問題に特化した新しい自動尺度を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:54:26Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。