Fugu-MT 論文翻訳(概要): Retrieving Multimodal Information for Augmented Generation: A Survey

論文の概要: Retrieving Multimodal Information for Augmented Generation: A Survey

arxiv url: http://arxiv.org/abs/2303.10868v1
Date: Mon, 20 Mar 2023 05:07:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-21 16:50:59.975984
Title: Retrieving Multimodal Information for Augmented Generation: A Survey
Title（参考訳）: 世代拡大のためのマルチモーダル情報の検索:サーベイ
Authors: Ruochen Zhao, Hailin Chen, Weishi Wang, Fangkai Jiao, Xuan Long Do, Chengwei Qin, Bosheng Ding, Xiaobao Guo, Minzhi Li, Xingxuan Li, Shafiq Joty
Abstract要約: このグループは、画像、コード、テーブル、グラフ、オーディオを含む外部ソースから接地コンテキストを取得することに焦点を当てている。本稿では,様々なモダリティによる検索拡張生成の詳細なレビューを行い,今後の方向性について論じる。
参考スコア（独自算出の注目度）: 8.993421523868538
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this survey, we review methods that retrieve multimodal knowledge to assist and augment generative models. This group of works focuses on retrieving grounding contexts from external sources, including images, codes, tables, graphs, and audio. As multimodal learning and generative AI have become more and more impactful, such retrieval augmentation offers a promising solution to important concerns such as factuality, reasoning, interpretability, and robustness. We provide an in-depth review of retrieval-augmented generation in different modalities and discuss potential future directions. As this is an emerging field, we continue to add new papers and methods.
Abstract（参考訳）: 本稿では,生成モデルを支援するマルチモーダル知識を取得する手法について検討する。このグループは、画像、コード、テーブル、グラフ、オーディオを含む外部ソースからの接地コンテキストの検索に焦点を当てている。マルチモーダル学習と生成AIがますます影響力を増すにつれて、このような検索強化は、事実性、推論、解釈可能性、堅牢性といった重要な問題に対する有望な解決策を提供する。本稿では,様々なモダリティによる検索拡張生成の詳細なレビューを行い,今後の方向性について論じる。これが新興分野であるので、新たな論文やメソッドを追加し続けます。

関連論文リスト

Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation [2.549112678136113]
Retrieval-Augmented Generation (RAG) は、外部の動的情報を統合することで問題を緩和する。クロスモーダルアライメントと推論はMultimodal RAGに固有の課題をもたらし、従来の単調なRAGと区別する。この調査は、より有能で信頼性の高いAIシステムを開発するための基盤となる。
論文参考訳（メタデータ） (2025-02-12T22:33:41Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。 CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文参考訳（メタデータ） (2024-09-19T02:51:54Z)
Surveying the MLLM Landscape: A Meta-Review of Current Surveys [17.372501468675303]
MLLM(Multimodal Large Language Models)は、人工知能分野における変革の原動力となっている。本研究の目的は,MLLMのベンチマークテストと評価方法の体系的レビューを提供することである。
論文参考訳（メタデータ） (2024-09-17T14:35:38Z)
Generative Large Language Models in Automated Fact-Checking: A Survey [0.0]
大きな言語モデル(LLM)は、膨大な知識と高度な推論能力でファクトチェッカーをサポートする有望な機会を提供する。本調査では, ファクトチェックにおけるジェネレーティブLLMの応用について検討し, モデル作成の促進と微調整のための様々なアプローチと技術について紹介する。
論文参考訳（メタデータ） (2024-07-02T15:16:46Z)
LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文参考訳（メタデータ） (2024-05-29T17:59:20Z)
Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文参考訳（メタデータ） (2024-02-23T06:04:23Z)
Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文参考訳（メタデータ） (2024-01-16T08:44:29Z)
How to Bridge the Gap between Modalities: A Comprehensive Survey on Multimodal Large Language Model [12.890344377484759]
本稿では,MLLM(Multimodal Large Language Models)について概説する。 MLLMはGPT-4のような大規模言語モデル(LLM)を統合し、テキストやビジョンなどのマルチモーダルデータを処理する。適切なモダリティアライメント法を選択することは重要である。
論文参考訳（メタデータ） (2023-11-10T09:51:24Z)
A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。既存の検出戦略とベンチマークの詳細な概要を提供する。また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文参考訳（メタデータ） (2023-10-24T09:10:26Z)
A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文参考訳（メタデータ） (2023-06-23T15:21:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。