論文の概要: Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook
- arxiv url: http://arxiv.org/abs/2503.18016v1
- Date: Sun, 23 Mar 2025 10:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:36.553267
- Title: Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook
- Title(参考訳): Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook
- Authors: Xu Zheng, Ziqiao Weng, Yuanhuiyi Lyu, Lutao Jiang, Haiwei Xue, Bin Ren, Danda Paudel, Nicu Sebe, Luc Van Gool, Xuming Hu,
- Abstract要約: Retrieval-augmented Generation (RAG) は人工知能(AI)において重要な技術である。
具体化されたAIのためのRAGの最近の進歩は、特に計画、タスク実行、マルチモーダル知覚、インタラクション、特殊ドメインの応用に焦点を当てている。
- 参考スコア(独自算出の注目度): 85.43403500874889
- License:
- Abstract: Retrieval-augmented generation (RAG) has emerged as a pivotal technique in artificial intelligence (AI), particularly in enhancing the capabilities of large language models (LLMs) by enabling access to external, reliable, and up-to-date knowledge sources. In the context of AI-Generated Content (AIGC), RAG has proven invaluable by augmenting model outputs with supplementary, relevant information, thus improving their quality. Recently, the potential of RAG has extended beyond natural language processing, with emerging methods integrating retrieval-augmented strategies into the computer vision (CV) domain. These approaches aim to address the limitations of relying solely on internal model knowledge by incorporating authoritative external knowledge bases, thereby improving both the understanding and generation capabilities of vision models. This survey provides a comprehensive review of the current state of retrieval-augmented techniques in CV, focusing on two main areas: (I) visual understanding and (II) visual generation. In the realm of visual understanding, we systematically review tasks ranging from basic image recognition to complex applications such as medical report generation and multimodal question answering. For visual content generation, we examine the application of RAG in tasks related to image, video, and 3D generation. Furthermore, we explore recent advancements in RAG for embodied AI, with a particular focus on applications in planning, task execution, multimodal perception, interaction, and specialized domains. Given that the integration of retrieval-augmented techniques in CV is still in its early stages, we also highlight the key limitations of current approaches and propose future research directions to drive the development of this promising area.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は人工知能(AI)において重要な技術として登場し、特に外部、信頼性、最新の知識ソースへのアクセスを可能にすることで、大規模言語モデル(LLM)の能力を向上している。
AIGC(AI-Generated Content)の文脈では、RAGはモデル出力を補足的で関連する情報で拡張することで、品質を向上することで、価値を証明している。
近年,検索強化戦略をコンピュータビジョン(CV)領域に統合し,自然言語処理を超えてRAGの可能性が高まっている。
これらのアプローチは、権威のある外部知識ベースを組み込むことで、内部モデル知識のみに依存するという限界に対処することを目的としており、それによってビジョンモデルの理解と生成能力を改善する。
本調査は, (I) 視覚理解と (II) 視覚生成の2分野に焦点をあて, CVにおける検索強化技術の現状を概観する。
視覚的理解の領域では、基本的な画像認識から医療報告生成やマルチモーダル質問応答といった複雑なアプリケーションまで、タスクを体系的にレビューする。
視覚コンテンツ生成において,画像,映像,3D生成に関わるタスクにおけるRAGの適用について検討する。
さらに、我々は、計画、タスク実行、マルチモーダル認識、インタラクション、特殊ドメインの応用に特に焦点をあてて、AIを具現化したRAGの最近の進歩について検討する。
CVにおける検索強化技術の統合は、まだ初期段階にあるので、現在のアプローチの鍵となる限界を強調し、この将来性のある領域の開発を促進するための今後の研究方向を提案する。
関連論文リスト
- Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey [92.36487127683053]
Retrieval-Augmented Generation (RAG)は、AIGC(AIGC)の課題に対処するために設計された高度な技術である。
RAGは信頼性と最新の外部知識を提供し、幻覚を減らし、幅広いタスクで関連するコンテキストを保証する。
RAGの成功と可能性にもかかわらず、最近の研究により、RAGパラダイムはプライバシーの懸念、敵対的攻撃、説明責任の問題など、新たなリスクももたらしていることが示されている。
論文 参考訳(メタデータ) (2025-02-08T06:50:47Z) - Generative Artificial Intelligence Meets Synthetic Aperture Radar: A Survey [49.29751866761522]
本稿では,GenAIとSARの交差点について検討する。
まず、SAR分野における一般的なデータ生成ベースのアプリケーションについて説明する。
次に、最新のGenAIモデルの概要を体系的にレビューする。
最後に、SARドメインの対応するアプリケーションも含まれる。
論文 参考訳(メタデータ) (2024-11-05T03:06:00Z) - A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions [0.0]
RAGは、検索機構と生成言語モデルを組み合わせることで、出力の精度を高める。
近年の研究では, 検索効率向上のための新しい手法が注目されている。
RAGモデルの堅牢性向上に焦点をあてた今後の研究方向性が提案されている。
論文 参考訳(メタデータ) (2024-10-03T22:29:47Z) - Generative AI in Industrial Machine Vision -- A Review [0.0]
生成AIは、パターン認識能力を改善することによって、有望な可能性を実証する。
マシンビジョンにおける生成AIの応用は、データの多様性、計算要求、堅牢な検証方法の必要性により、まだ初期段階にある。
PRISMAガイドラインに基づく文献レビューを行い、産業機械ビジョンにおける生成AIに関する1200以上の論文を分析した。
論文 参考訳(メタデータ) (2024-08-20T12:14:18Z) - A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning [51.7818820745221]
水中画像強調(UIE)はコンピュータビジョン研究において重要な課題である。
多数のUIEアルゴリズムが開発されているにもかかわらず、網羅的で体系的なレビューはいまだに欠落している。
論文 参考訳(メタデータ) (2024-05-30T04:46:40Z) - A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。
Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。
RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文 参考訳(メタデータ) (2024-05-10T02:48:45Z) - Retrieval-Augmented Generation for Large Language Models: A Survey [17.82361213043507]
大きな言語モデル(LLM)には印象的な能力があるが、幻覚のような課題に直面している。
Retrieval-Augmented Generation (RAG) は,外部データベースからの知識を取り入れた,有望なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-18T07:47:33Z) - A Comprehensive Survey of AI-Generated Content (AIGC): A History of
Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。
AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文 参考訳(メタデータ) (2023-03-07T20:36:13Z) - Exploring External Knowledge for Accurate modeling of Visual and
Language Problems [2.7190267444272056]
この論文は、多くの困難なタスクを含む視覚的および言語的理解に焦点を当てている。
これらの問題を解決する最先端の手法は通常、ソースデータとターゲットラベルの2つの部分のみを含む。
まず外部知識を抽出し,元のモデルと統合する手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T02:01:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。