論文の概要: Windsock is Dancing: Adaptive Multimodal Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2510.22694v1
- Date: Sun, 26 Oct 2025 14:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.331219
- Title: Windsock is Dancing: Adaptive Multimodal Retrieval-Augmented Generation
- Title(参考訳): ウィンドソックのダンス:適応型マルチモーダル検索型世代
- Authors: Shu Zhao, Tianyi Shen, Nilesh Ahuja, Omesh Tickoo, Vijaykrishnan Narayanan,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)の現実的かつ最新の応答を生成するための有望な手法として,MRAG(Multimodal Retrieval-Augmented Generation)が登場した。
既存のMRAGアプローチは、静的検索戦略、非フレキシブルなモダリティ選択、および検索された情報の準最適利用に悩まされている。
我々は、検索の必要性とモダリティの選択を判断するクエリ依存モジュールであるWindsockを導入し、計算オーバーヘッドを効果的に削減し、応答品質を向上させる。
- 参考スコア(独自算出の注目度): 19.543168652651783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Retrieval-Augmented Generation (MRAG) has emerged as a promising method to generate factual and up-to-date responses of Multimodal Large Language Models (MLLMs) by incorporating non-parametric knowledge from external knowledge bases. However, existing MRAG approaches suffer from static retrieval strategies, inflexible modality selection, and suboptimal utilization of retrieved information, leading to three critical challenges: determining when to retrieve, what modality to incorporate, and how to utilize retrieved information effectively. To address these challenges, we introduce Windsock, a query-dependent module making decisions on retrieval necessity and modality selection, effectively reducing computational overhead and improving response quality. Additionally, we propose Dynamic Noise-Resistance (DANCE) Instruction Tuning, an adaptive training strategy that enhances MLLMs' ability to utilize retrieved information while maintaining robustness against noise. Moreover, we adopt a self-assessment approach leveraging knowledge within MLLMs to convert question-answering datasets to MRAG training datasets. Extensive experiments demonstrate that our proposed method significantly improves the generation quality by 17.07% while reducing 8.95% retrieval times.
- Abstract(参考訳): MRAG(Multimodal Retrieval-Augmented Generation)は、外部知識ベースからの非パラメトリック知識を組み込むことにより、MLLM(Multimodal Large Language Models)の現実的かつ最新の応答を生成するための有望な手法として登場した。
しかし,既存のMRAGアプローチは,静的検索戦略,非フレキシブルなモダリティ選択,検索した情報の最適部分利用に悩まされており,検索時期の決定,組み込むモダリティ,検索した情報の有効活用方法の3つの重要な課題に繋がる。
これらの課題に対処するために、検索の必要性とモダリティの選択を判断するクエリ依存モジュールであるWindsockを導入し、計算オーバーヘッドを効果的に削減し、応答品質を向上させる。
さらに,音に対する頑健さを維持しつつ,MLLMが取得した情報を活用する能力を高める適応的学習戦略である動的ノイズ抵抗(DANCE)命令チューニングを提案する。
さらに,質問応答データセットをMRAG訓練データセットに変換するために,MLLM内の知識を活用した自己評価アプローチを採用する。
大規模実験により,提案手法は,8.95%の検索時間を短縮しつつ,生成品質を17.07%向上させることを示した。
関連論文リスト
- Distilling a Small Utility-Based Passage Selector to Enhance Retrieval-Augmented Generation [110.610512800947]
Retrieval-augmented Generation (RAG)は、取得した情報を組み込むことで、大規模言語モデル(LLM)を強化する。
RAGでは、重要度は実用性に移行し、正確な回答を生成するためのパスの有用性を考慮している。
提案手法は、ランク付けよりもユーティリティベースの選択に重点を置いており、固定しきい値を必要とせずに、特定のクエリに合わせた動的通過選択を可能にする。
本実験は, 実用性に基づく選択により, RAGの柔軟性とコスト効率が向上し, 計算コストが大幅に低減され, 応答品質が向上することを示した。
論文 参考訳(メタデータ) (2025-07-25T09:32:29Z) - Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging [11.377241012645994]
InForageは、動的情報探索プロセスとして検索強化推論を形式化する強化学習フレームワークである。
我々は,複雑な実世界のWebタスクに対する反復探索と推論のトラジェクトリをキャプチャするヒューマンガイドデータセットを構築した。
これらの結果は、堅牢で適応的で効率的な推論エージェントの構築におけるInForageの有効性を強調している。
論文 参考訳(メタデータ) (2025-05-14T12:13:38Z) - Self-Routing RAG: Binding Selective Retrieval with Knowledge Verbalization [95.85537087475882]
既存のアプローチは、大規模言語モデル(LLM)の固有の知識を過小評価している。
本稿では,選択検索と知識の言語化を結びつける新しいフレームワークであるSelf-Routing RAGを提案する。
SR-RAGは検索回数を29%削減し、性能は5.1%向上した。
論文 参考訳(メタデータ) (2025-04-01T17:59:30Z) - Towards Adaptive Memory-Based Optimization for Enhanced Retrieval-Augmented Generation [12.358380436054247]
Retrieval-Augmented Generation (RAG)は、外部知識ベースからの非パラメトリック知識をモデルに統合する。
既存のRAGメソッドは、オープンドメイン質問回答(QA)タスクに苦労する。
オープンドメインQAタスクのための拡張RAGのための適応メモリベースの最適化を提案する。
論文 参考訳(メタデータ) (2025-02-19T04:23:12Z) - KBM: Delineating Knowledge Boundary for Adaptive Retrieval in Large Language Models [69.99274367773997]
大規模言語モデル(LLM)は知識を動的に変化させ、未知の静的情報を扱うのにしばしば苦労する。
Retrieval-Augmented Generation (RAG) はこれらの課題に対処するために使われ、LLMの性能向上に大きな影響を与えている。
本稿では,ある質問の既知/未知を表現し,RAGを起動する必要があるかどうかを判断するための知識境界モデル(KBM)を提案する。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - DeepNote: Note-Centric Deep Retrieval-Augmented Generation [72.70046559930555]
Retrieval-Augmented Generation (RAG)は質問応答のための大規模言語モデル(LLM)における事実誤りと幻覚を緩和する
我々は、ノート中心の適応検索により、知識ソースの奥深くで堅牢な探索を実現する適応RAGフレームワークであるDeepNoteを開発した。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training [9.023648972811458]
RagVLは、知識強化されたリグレードとノイズ注入トレーニングを備えた、新しいフレームワークである。
我々はMLLMに簡単な命令テンプレートを付与し、そのランク付け能力を誘導する。
例えば、データとトークンレベルでのトレーニング中に視覚ノイズを注入して、ジェネレータの堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-31T08:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。