論文の概要: Knowledge-based learning in Text-RAG and Image-RAG
- arxiv url: http://arxiv.org/abs/2601.08226v1
- Date: Tue, 13 Jan 2026 05:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.068546
- Title: Knowledge-based learning in Text-RAG and Image-RAG
- Title(参考訳): テキストRAGと画像RAGにおける知識に基づく学習
- Authors: Alexander Shim, Khalil Saieh, Samuel Clarke,
- Abstract要約: 本研究では,視覚変換器(EVA-ViT)を用いた画像エンコーダのマルチモーダル手法をLlaMAやChatGPT LLMと比較した。
- 参考スコア(独自算出の注目度): 43.91287382653268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research analyzed and compared the multi-modal approach in the Vision Transformer(EVA-ViT) based image encoder with the LlaMA or ChatGPT LLM to reduce the hallucination problem and detect diseases in chest x-ray images. In this research, we utilized the NIH Chest X-ray image to train the model and compared it in image-based RAG, text-based RAG, and baseline. [3] [5] In a result, the text-based RAG[2] e!ectively reduces the hallucination problem by using external knowledge information, and the image-based RAG improved the prediction con"dence and calibration by using the KNN methods. [4] Moreover, the GPT LLM showed better performance, a low hallucination rate, and better Expected Calibration Error(ECE) than Llama Llama-based model. This research shows the challenge of data imbalance, a complex multi-stage structure, but suggests a large experience environment and a balanced example of use.
- Abstract(参考訳): 本研究では,視覚変換器(EVA-ViT)を用いた画像エンコーダをLlaMAやChatGPT LLMと比較し,幻覚の問題を軽減し,胸部X線像の疾患を検出する。
本研究では,NIH Chest X線画像を用いてモデルをトレーニングし,画像ベースRAG,テキストベースRAG,ベースラインで比較した。
[3] [5] その結果、テキストベースのRAG[2] e!
外部知識情報を用いて幻覚の問題を選択的に低減し、画像ベースRAGは、KNN法を用いて予測コンデンスと校正を改善した。
さらに, GPT LLMはLlama Llamaモデルよりも優れた性能, 低幻覚率, 期待校正誤差(ECE)を示した。
本研究は,データ不均衡,複雑な多段階構造という課題を示すが,大きな経験環境と利用のバランスの取れた例を示唆する。
関連論文リスト
- Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis [9.248806116103605]
医用診断用LVLMを併用したマルチモーダル検索モデルを開発した。
異なるトップ検索された画像は、しばしば同じターゲットに対して異なる予測をもたらす。
本モデルは,臨床分類とVQAタスクに関する医学的に事前訓練されたモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2025-08-24T15:06:20Z) - SV-DRR: High-Fidelity Novel View X-Ray Synthesis Using Diffusion Model [0.3823356975862005]
単一視点からのマルチビューX線画像に対する新しいビュー条件付きモデルを提案する。
提案手法ではディフュージョン変換器を用いて細部を保存し,高解像度画像の安定生成に弱いストロングトレーニング戦略を用いる。
この能力は、臨床応用だけでなく、医学教育やデータ拡張にも重要な意味を持つ。
論文 参考訳(メタデータ) (2025-07-07T15:58:11Z) - Libra: Leveraging Temporal Images for Biomedical Radiology Analysis [21.772106685777995]
放射線医学報告生成(RRG)には、高度な医用画像解析、効果的な時間的推論、正確なテキスト生成が必要である。
本稿では,胸部X線レポート生成に適した時間認識MLLMであるLibraを紹介する。
Libraは、放射線学固有の画像エンコーダと、ペア化された現在の画像と以前の画像の時間差を正確に捉え統合するために設計された新しい時間アライメントコネクタ(TAC)を組み合わせる。
論文 参考訳(メタデータ) (2024-11-28T21:07:22Z) - IBD: Alleviating Hallucinations in Large Vision-Language Models via
Image-Biased Decoding [37.16880672402059]
言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。
本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。
提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
論文 参考訳(メタデータ) (2024-02-28T16:57:22Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - Performance of GAN-based augmentation for deep learning COVID-19 image
classification [57.1795052451257]
ディープラーニングを医療分野に適用する上で最大の課題は、トレーニングデータの提供である。
データ拡張は、限られたデータセットに直面した時に機械学習で使用される典型的な方法論である。
本研究は, 新型コロナウイルスの胸部X線画像セットを限定して, StyleGAN2-ADAモデルを用いて訓練するものである。
論文 参考訳(メタデータ) (2023-04-18T15:39:58Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Improved Slice-wise Tumour Detection in Brain MRIs by Computing
Dissimilarities between Latent Representations [68.8204255655161]
磁気共鳴画像(MRI)の異常検出は教師なし手法で行うことができる。
本研究では,変分オートエンコーダの潜伏空間における相似関数の計算に基づいて,腫瘍検出のためのスライスワイズ半教師法を提案する。
本研究では,高解像度画像上でのモデルをトレーニングし,再現の質を向上させることにより,異なるベースラインに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2020-07-24T14:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。