論文の概要: Retrieving Multimodal Information for Augmented Generation: A Survey
- arxiv url: http://arxiv.org/abs/2303.10868v3
- Date: Fri, 1 Dec 2023 02:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 18:54:34.947079
- Title: Retrieving Multimodal Information for Augmented Generation: A Survey
- Title(参考訳): 世代拡大のためのマルチモーダル情報の検索:サーベイ
- Authors: Ruochen Zhao, Hailin Chen, Weishi Wang, Fangkai Jiao, Xuan Long Do,
Chengwei Qin, Bosheng Ding, Xiaobao Guo, Minzhi Li, Xingxuan Li, Shafiq Joty
- Abstract要約: マルチモーダルな知識を検索することで生成モデルを補助・拡張する手法について検討する。
このような手法は、事実性、推論、解釈可能性、堅牢性といった重要な問題に対する有望な解決策を提供する。
- 参考スコア(独自算出の注目度): 35.33076940985081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) become popular, there emerged an important
trend of using multimodality to augment the LLMs' generation ability, which
enables LLMs to better interact with the world. However, there lacks a unified
perception of at which stage and how to incorporate different modalities. In
this survey, we review methods that assist and augment generative models by
retrieving multimodal knowledge, whose formats range from images, codes,
tables, graphs, to audio. Such methods offer a promising solution to important
concerns such as factuality, reasoning, interpretability, and robustness. By
providing an in-depth review, this survey is expected to provide scholars with
a deeper understanding of the methods' applications and encourage them to adapt
existing techniques to the fast-growing field of LLMs.
- Abstract(参考訳): LLM(Large Language Models)が普及するにつれて、LLMの生成能力を高めるためにマルチモーダルを使用するという重要なトレンドが出現し、LLMが世界とよりうまく対話できるようになる。
しかし、どの段階と異なるモダリティを組み込むかという統一的な認識が欠けている。
本研究では,画像,コード,テーブル,グラフ,音声など多様な形式を持つマルチモーダル知識を検索し,生成モデルを支援する手法について検討する。
このような手法は、事実性、推論、解釈可能性、堅牢性といった重要な懸念に対する有望な解決策を提供する。
本調査では,本手法の応用についてより深く理解し,LLMの急速に発展する分野に既存技術を適用することを奨励することが期待されている。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - Surveying the MLLM Landscape: A Meta-Review of Current Surveys [17.372501468675303]
MLLM(Multimodal Large Language Models)は、人工知能分野における変革の原動力となっている。
本研究の目的は,MLLMのベンチマークテストと評価方法の体系的レビューを提供することである。
論文 参考訳(メタデータ) (2024-09-17T14:35:38Z) - Generative Large Language Models in Automated Fact-Checking: A Survey [0.0]
大きな言語モデル(LLM)は、膨大な知識と高度な推論能力でファクトチェッカーをサポートする有望な機会を提供する。
本調査では, ファクトチェックにおけるジェネレーティブLLMの応用について検討し, モデル作成の促進と微調整のための様々なアプローチと技術について紹介する。
論文 参考訳(メタデータ) (2024-07-02T15:16:46Z) - LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。
これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。
我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文 参考訳(メタデータ) (2024-05-29T17:59:20Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - How to Bridge the Gap between Modalities: A Comprehensive Survey on
Multimodal Large Language Model [12.890344377484759]
本稿では,MLLM(Multimodal Large Language Models)について概説する。
MLLMはGPT-4のような大規模言語モデル(LLM)を統合し、テキストやビジョンなどのマルチモーダルデータを処理する。
適切なモダリティアライメント法を選択することは重要である。
論文 参考訳(メタデータ) (2023-11-10T09:51:24Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。