論文の概要: KIRA: Knowledge-Intensive Image Retrieval and Reasoning Architecture for Specialized Visual Domains
- arxiv url: http://arxiv.org/abs/2604.16915v1
- Date: Sat, 18 Apr 2026 08:47:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.233422
- Title: KIRA: Knowledge-Intensive Image Retrieval and Reasoning Architecture for Specialized Visual Domains
- Title(参考訳): KIRA: 専門化されたビジュアルドメインのための知識集約型画像検索と推論アーキテクチャ
- Authors: Parthaw Goswami, Jaynto Goswami Deep,
- Abstract要約: KIRA(Knowledge Intensive Image Retrieval and Reasoning Architecture)は、特殊ドメインの視覚RAGにおける10のコア問題に対処する。
また、3つの軸に沿って視覚的RAGを評価するベンチマークスイートであるDOMAINVQARを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval augmented generation (RAG) has transformed text based question answering, yet its extension to visual domains remains hindered by fundamental challenges: bridging the modality gap between image queries and text heavy knowledge bases, constructing semantically meaningful visual knowledge bases, performing multihop reasoning over retrieved images, and verifying that generated answers are faithfully grounded in visual evidence. We present KIRA (Knowledge Intensive Image Retrieval and Reasoning Architecture), a unified five stage framework that addresses ten core problems in visual RAG for specialized domains. KIRA introduces: (1) hierarchical semantic chunking with DINO based region detection for multi granularity knowledge base construction, (2) domain adaptive contrastive encoders with fewshot adaptation for rare visual concepts, (3) dualpath crossmodal retrieval with chainOfThought query expansion, (4) chainOfRetrieval for multihop visual reasoning with temporal and multiview support, and (5) evidence conditioned grounded generation with posthoc hallucination verification. We also propose DOMAINVQAR, a benchmark suite that evaluates visual RAG along three axes (retrieval precision, reasoning faithfulness, and domain correctness) going beyond standard recall metrics. Experiments across four specialized domains (medical Xray, circuit diagrams, satellite imagery, and histopathology) with a progressive six variant ablation demonstrate that KIRA achieves 0.97 retrieval precision, 1.0 grounding scores, and 0.707 domain correctness averaged across domains, while the ablation reveals actionable insights about when each component helps and when components introduce precision diversity tradeoffs that must be managed. Code will be released upon acceptance.
- Abstract(参考訳): Retrieval augmented generation (RAG)は、テキストベースの質問応答を変換しているが、画像クエリとテキストの重い知識ベースの間のモダリティギャップを埋めること、意味的に意味のある視覚的知識ベースを構築すること、検索された画像に対してマルチホップ推論を行うこと、生成した回答が視覚的証拠に忠実に根ざされていることの検証である。
KIRA(Knowledge Intensive Image Retrieval and Reasoning Architecture)は、特殊ドメインの視覚的RAGにおける10のコア問題に対処する統合された5段階のフレームワークである。
KIRAでは,(1)多粒度知識ベース構築のためのDINOに基づく領域検出による階層的セマンティックチャンキング,(2)希少な視覚概念にほとんど適応しないドメイン適応コントラストエンコーダ,(3)チェーンOfThoughtクエリ拡張によるデュアルパスクロスモーダル検索,(4)チェーンOfRetrievalによる時間的・マルチビューサポートによるマルチホップ視覚推論のためのチェーンOfRetrieval,(5)ポストホック幻覚検査による根拠条件付き基底生成。
DOMAINVQARは、標準的なリコール基準を超える3つの軸(検索精度、信頼度、ドメイン正当性)に沿って視覚的RAGを評価するベンチマークスイートである。
4つの専門領域(医用X線、回路図、衛星画像、病理組織学)で、進歩的な6種類のアブレーションによる実験により、KIRAは0.97の検索精度、1.0の接地スコア、0.707のドメイン正当性を達成した。
コードは受理時にリリースされる。
関連論文リスト
- AeroRAG: Structured Multimodal Retrieval-Augmented LLM for Fine-Grained Aerial Visual Reasoning [2.9055098900305634]
本稿では,視覚的質問応答のためのシーングラフ誘導多モーダル検索拡張生成フレームワークであるAeroRAGを提案する。
このフレームワークはまず、入力画像からオブジェクトカテゴリ、量、意味的関係を含む構造化された視覚的知識に変換する。
その後、クエリ関連セマンティックチャンクを取得し、テキストベースの大規模言語モデルのためのコンパクトなプロンプトを構築する。
論文 参考訳(メタデータ) (2026-04-20T07:02:10Z) - Seeing but Not Thinking: Routing Distraction in Multimodal Mixture-of-Experts [58.86896791968143]
MoE(Multimodal Mixture-of-Experts)モデルは視覚言語タスクにおいて顕著なパフォーマンスを実現している。
モデルは画像の内容が正確に知覚されるが、その後の推論では失敗する。
本稿では,視覚的な入力を処理する際に,タスク関連推論の専門家を適切に活性化できないという,ルーティング・ディトラクションの仮説を提案する。
論文 参考訳(メタデータ) (2026-04-09T17:59:44Z) - Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models [58.46663983451155]
PixSearchは、地域レベルの認識と検索強化推論を統合する、エンドツーエンドのLMM(Large Multimodal Model)である。
エンコーディング中、PixSearchは検索をトリガーする検索>トークンを出力し、クエリのモダリティ(テキスト、画像、リージョン)を選択し、ビジュアルクエリとして直接機能するピクセルレベルのマスクを生成する。
エゴセントリックでエンティティ中心のVQAベンチマークでは、PixSearchは事実整合性と一般化を大幅に改善する。
論文 参考訳(メタデータ) (2026-01-27T00:46:08Z) - RT-VLM: Re-Thinking Vision Language Model with 4-Clues for Real-World Object Recognition Robustness [2.9979091009694088]
現実世界のデプロイメントは、しばしば、最新のオブジェクト認識モデルをドメインシフトに公開し、精度を著しく低下させる。
この劣化を軽減するため、我々はRT-VLM(Re-Thinking Vision Language Model)フレームワークを導入する。
論文 参考訳(メタデータ) (2025-09-01T02:13:00Z) - REVEAL -- Reasoning and Evaluation of Visual Evidence through Aligned Language [0.1388281922732496]
我々は、この偽造検出の問題を、大規模視覚言語モデルのセマンティックアライメント機能を活用して、プロンプト駆動型視覚推論タスクとして構成する。
本研究では, 画像全体の物理, セマンティクス, パースペクティブ, リアリズムに依存する全体的シーンレベル評価と, 画像を複数の領域に分割して解析する領域ワイド異常検出の2つの手法を提案する。
論文 参考訳(メタデータ) (2025-08-18T00:42:02Z) - Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology [87.65242416688146]
TreeBenchは、ビジュアルグラウンド推論の診断ベンチマークである。
TreeVGRは、強化学習と共同でローカライゼーションと推論を監督する訓練パラダイムである。
論文 参考訳(メタデータ) (2025-07-10T17:59:58Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。
最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。
第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文 参考訳(メタデータ) (2025-03-13T08:43:24Z) - Visual-RAG: Benchmarking Text-to-Image Retrieval Augmented Generation for Visual Knowledge Intensive Queries [30.692007887121278]
Retrieval-augmented Generation (RAG)は、知識集約的な質問に対処するために、外部知識で大きな言語モデルを拡張する。
Visual-RAGは、視覚的に根ざした知識集約的な質問を対象とする質問回答ベンチマークである。
我々は,5つのオープンソースと3つのプロプライエタリなMLLMを評価し,画像が拡張世代において強力な証拠となることを示す。
論文 参考訳(メタデータ) (2025-02-23T16:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。