論文の概要: Exploration of Augmentation Strategies in Multi-modal Retrieval-Augmented Generation for the Biomedical Domain: A Case Study Evaluating Question Answering in Glycobiology
- arxiv url: http://arxiv.org/abs/2512.16802v1
- Date: Thu, 18 Dec 2025 17:35:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.18609
- Title: Exploration of Augmentation Strategies in Multi-modal Retrieval-Augmented Generation for the Biomedical Domain: A Case Study Evaluating Question Answering in Glycobiology
- Title(参考訳): バイオメディカルドメインの多モード検索型生成における拡張戦略の探索:グリコビオロジーにおける質問応答の評価を事例として
- Authors: Primož Kocbek, Azra Frkatović-Hodžić, Dora Lalić, Vivian Hui, Gordan Lauc, Gregor Štiglic,
- Abstract要約: マルチモーダル検索強化世代 (MM-RAG) は、接地型バイオメディカルQAを約束する。
i)図形/表をテキストに変換するのに、(ii)光学文字認識(OCR)を使わない視覚的検索を使うのに対して、いつテキストに変換するかは不明確である。
我々はこのトレードオフを、視覚的に高密度な領域であるグリコビオロジーで研究する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-modal retrieval-augmented generation (MM-RAG) promises grounded biomedical QA, but it is unclear when to (i) convert figures/tables into text versus (ii) use optical character recognition (OCR)-free visual retrieval that returns page images and leaves interpretation to the generator. We study this trade-off in glycobiology, a visually dense domain. We built a benchmark of 120 multiple-choice questions (MCQs) from 25 papers, stratified by retrieval difficulty (easy text, medium figures/tables, hard cross-evidence). We implemented four augmentations-None, Text RAG, Multi-modal conversion, and late-interaction visual retrieval (ColPali)-using Docling parsing and Qdrant indexing. We evaluated mid-size open-source and frontier proprietary models (e.g., Gemma-3-27B-IT, GPT-4o family). Additional testing used the GPT-5 family and multiple visual retrievers (ColPali/ColQwen/ColFlor). Accuracy with Agresti-Coull 95% confidence intervals (CIs) was computed over 5 runs per configuration. With Gemma-3-27B-IT, Text and Multi-modal augmentation outperformed OCR-free retrieval (0.722-0.740 vs. 0.510 average accuracy). With GPT-4o, Multi-modal achieved 0.808, with Text 0.782 and ColPali 0.745 close behind; within-model differences were small. In follow-on experiments with the GPT-5 family, the best results with ColPali and ColFlor improved by ~2% to 0.828 in both cases. In general, across the GPT-5 family, ColPali, ColQwen, and ColFlor were statistically indistinguishable. GPT-5-nano trailed larger GPT-5 variants by roughly 8-10%. Pipeline choice is capacity-dependent: converting visuals to text lowers the reader burden and is more reliable for mid-size models, whereas OCR-free visual retrieval becomes competitive under frontier models. Among retrievers, ColFlor offers parity with heavier options at a smaller footprint, making it an efficient default when strong generators are available.
- Abstract(参考訳): マルチモーダル検索強化世代(MM-RAG)はバイオメディカルQAの接地を約束するが、いつ頃になるかは定かではない。
(i)図形/表をテキストに変換するか、あるいはテキストに変換する
(II) ページイメージを返却し、解釈をジェネレータに残す光学文字認識(OCR)フリービジュアル検索を使用する。
我々はこのトレードオフを、視覚的に高密度な領域であるグリコビオロジーで研究する。
我々は,検索難易度(テキスト,中型/表,ハードクロスエビデンス)に基づいて,25論文から120質問(MCQ)のベンチマークを構築した。
ドクリング解析とQdrantインデクシングを併用した4つの拡張処理(None, Text RAG, Multi-modal conversion, late-interaction visual search (ColPali))を実装した。
我々は,中規模のオープンソースおよびフロンティアプロプライエタリモデル (Gemma-3-27B-IT, GPT-4o family) を評価した。
追加のテストでは、GPT-5ファミリーと複数のビジュアルレトリバー(ColPali/ColQwen/ColFlor)が使用された。
Agresti-Coull 95%信頼区間 (CIs) での精度は構成毎に5回以上計算された。
Gemma-3-27B-ITでは、テキストおよびマルチモーダル拡張がOCRフリー検索(0.722-0.740対0.510平均精度)を上回った。
GPT-4oでは、Multi-modalは0.808を達成し、Text 0.782とColPali 0.745の差は小さい。
GPT-5ファミリーを用いた実験では、ColPaliとColFlorの最良の結果はいずれも約2%から0.828に改善された。
一般に、GPT-5ファミリー全体、ColPali、ColQwen、ColFlorは統計的に区別できない。
GPT-5-nanoはより大型のGPT-5を約8-10%追従した。
パイプラインの選択はキャパシティに依存しており、視覚をテキストに変換することで読み手負担を低減し、中規模モデルの信頼性が向上する一方、OCRフリーの視覚検索はフロンティアモデルでは競争力を持つ。
回収者の間では、ColFlorはより少ないフットプリントでより重いオプションでパーティを提供しており、強力なジェネレータが利用可能になった場合、効率的なデフォルトになっている。
関連論文リスト
- Mind Reading or Misreading? LLMs on the Big Five Personality Test [1.3649494534428745]
本研究では,2進5因子モデル (BIG5) に基づくテキストから人格自動予測のための大規模言語モデル (LLM) を評価する。
オープンソースモデルは時々 GPT-4 や以前のベンチマークにアプローチするが、ゼロショットバイナリ設定で一貫した信頼性のある予測は得られない。
これらの結果から, 現状のLCMはAPPTにはまだ適していないこと, 迅速な設計, 特性フレーミング, 評価指標の慎重な調整が, 解釈可能な結果に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2025-11-28T11:40:30Z) - RAGSmith: A Framework for Finding the Optimal Composition of Retrieval-Augmented Generation Methods Across Datasets [0.0]
RAGSmithは、RAGを9つのテクニックファミリと46,080の実行可能なパイプライン構成上のエンドツーエンドアーキテクチャ検索として扱うフレームワークである。
我々は、ウィキペディア由来の6つのドメイン(Law, Finance, Medicine, Defense Industry, Computer Science)について、それぞれ100の質問を設計、解釈、長期回答のタイプで評価した。
RAGSmithは平均で+3.8%(ドメイン全体で+1.2%から+6.9%)、検索で+12.5%、世代で+7.5%である。
論文 参考訳(メタデータ) (2025-11-03T09:36:27Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z) - Open-Source Agentic Hybrid RAG Framework for Scientific Literature Review [2.092154729589438]
本稿では,ハイブリッドRAGパイプラインを自律エージェント内にカプセル化するエージェントアプローチを提案する。
当社のパイプラインでは,PubMedやarXiv,Google Scholar APIから,バイオロジカルなオープンアクセスデータを収集しています。
Llama-3.3-70B エージェントが GraphRAG (クエリを Cypher for KG に変換する) または VectorRAG (スパースと高密度検索を組み合わせて再ランク付けする) を選択する
論文 参考訳(メタデータ) (2025-07-30T18:54:15Z) - Advancing Retrieval-Augmented Generation for Structured Enterprise and Internal Data [0.0]
大きな言語モデル(LLM)は強力な生成能力を持つ。
静的事前トレーニング、短いコンテキストウィンドウ、および異種データフォーマットを処理する際の課題によって制限されている。
従来のRetrieval-Augmented Generation (RAG) フレームワークはこれらのギャップのいくつかに対処するが、構造化データや半構造化データに苦慮することが多い。
本研究では,SpaCy NERとクロスエンコーダによるメタデータ認識フィルタリングにより強化された,高密度埋め込み(All-mpnet-base-v2)とBM25を用いたハイブリッド検索戦略を組み合わせた高度なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-16T17:13:06Z) - Evaluating Hybrid Retrieval Augmented Generation using Dynamic Test Sets: LiveRAG Challenge [8.680958290253914]
本稿では,動的テストセット上での検索強化生成システム(RAG)の評価を行うLiveRAG Challenge 2025を提案する。
我々の最後のハイブリッドアプローチはスパース (BM25) と高密度 (E5) の検索手法を組み合わせたものである。
RankLLaMA を用いたニューラルリランクでは MAP は0.523 から 0.797 に向上するが,計算コストは禁忌である。
論文 参考訳(メタデータ) (2025-06-27T21:20:43Z) - VisRet: Visualization Improves Knowledge-Intensive Text-to-Image Retrieval [56.12310817934239]
クロスモーダルな埋め込みは概念の袋として振る舞うが、ポーズや視点のような構造的な視覚的関係が不足している。
この制限を緩和するT2I検索のための新しいパラダイムであるVisualize-then-Retrieve (VisRet)を提案する。
VisRetは、T2I検索をテキスト間類似性マッチングとして再キャストする、モーダル間の類似性マッチングとベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2025-05-26T17:59:33Z) - Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection [58.419940585826744]
本稿では,確率的AIテキスト検出のためのグループ固有しきい値最適化アルゴリズムであるFairOPTを紹介する。
属性(例えば、テキストの長さと書き込みスタイル)に基づいてデータをサブグループに分割し、FairOPTを実装して、各グループに対する決定しきい値の学習を行い、不一致を低減しました。
我々のフレームワークは、後処理によるAI生成コンテンツ検出において、より堅牢な分類の道を開く。
論文 参考訳(メタデータ) (2025-02-06T21:58:48Z) - X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text
Retrieval [87.3821932795969]
細かなコントラストは粗い粒度の表現と細かな粒度の表現のコントラストである。
X-CLIPはビデオテキスト検索のための新しいマルチグラウンドコントラストモデルである。
X-CLIPは、広く使われている5つのビデオテキスト検索データセットにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-07-15T04:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。