Fugu-MT 論文翻訳(概要): Retrieving Multimodal Information for Augmented Generation: A Survey

論文の概要: Retrieving Multimodal Information for Augmented Generation: A Survey

arxiv url: http://arxiv.org/abs/2303.10868v3
Date: Fri, 1 Dec 2023 02:58:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 18:54:34.947079
Title: Retrieving Multimodal Information for Augmented Generation: A Survey
Title（参考訳）: 世代拡大のためのマルチモーダル情報の検索:サーベイ
Authors: Ruochen Zhao, Hailin Chen, Weishi Wang, Fangkai Jiao, Xuan Long Do, Chengwei Qin, Bosheng Ding, Xiaobao Guo, Minzhi Li, Xingxuan Li, Shafiq Joty
Abstract要約: マルチモーダルな知識を検索することで生成モデルを補助・拡張する手法について検討する。このような手法は、事実性、推論、解釈可能性、堅牢性といった重要な問題に対する有望な解決策を提供する。
参考スコア（独自算出の注目度）: 35.33076940985081
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As Large Language Models (LLMs) become popular, there emerged an important trend of using multimodality to augment the LLMs' generation ability, which enables LLMs to better interact with the world. However, there lacks a unified perception of at which stage and how to incorporate different modalities. In this survey, we review methods that assist and augment generative models by retrieving multimodal knowledge, whose formats range from images, codes, tables, graphs, to audio. Such methods offer a promising solution to important concerns such as factuality, reasoning, interpretability, and robustness. By providing an in-depth review, this survey is expected to provide scholars with a deeper understanding of the methods' applications and encourage them to adapt existing techniques to the fast-growing field of LLMs.
Abstract（参考訳）: LLM(Large Language Models)が普及するにつれて、LLMの生成能力を高めるためにマルチモーダルを使用するという重要なトレンドが出現し、LLMが世界とよりうまく対話できるようになる。しかし、どの段階と異なるモダリティを組み込むかという統一的な認識が欠けている。本研究では,画像,コード,テーブル,グラフ,音声など多様な形式を持つマルチモーダル知識を検索し,生成モデルを支援する手法について検討する。このような手法は、事実性、推論、解釈可能性、堅牢性といった重要な懸念に対する有望な解決策を提供する。本調査では,本手法の応用についてより深く理解し,LLMの急速に発展する分野に既存技術を適用することを奨励することが期待されている。

関連論文リスト

Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation [2.549112678136113]
Retrieval-Augmented Generation (RAG) は、外部の動的情報を統合することで問題を緩和する。クロスモーダルアライメントと推論はMultimodal RAGに固有の課題をもたらし、従来の単調なRAGと区別する。この調査は、より有能で信頼性の高いAIシステムを開発するための基盤となる。
論文参考訳（メタデータ） (2025-02-12T22:33:41Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。 CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文参考訳（メタデータ） (2024-09-19T02:51:54Z)
Surveying the MLLM Landscape: A Meta-Review of Current Surveys [17.372501468675303]
MLLM(Multimodal Large Language Models)は、人工知能分野における変革の原動力となっている。本研究の目的は,MLLMのベンチマークテストと評価方法の体系的レビューを提供することである。
論文参考訳（メタデータ） (2024-09-17T14:35:38Z)
Generative Large Language Models in Automated Fact-Checking: A Survey [0.0]
大きな言語モデル(LLM)は、膨大な知識と高度な推論能力でファクトチェッカーをサポートする有望な機会を提供する。本調査では, ファクトチェックにおけるジェネレーティブLLMの応用について検討し, モデル作成の促進と微調整のための様々なアプローチと技術について紹介する。
論文参考訳（メタデータ） (2024-07-02T15:16:46Z)
LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文参考訳（メタデータ） (2024-05-29T17:59:20Z)
Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文参考訳（メタデータ） (2024-02-23T06:04:23Z)
Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文参考訳（メタデータ） (2024-01-16T08:44:29Z)
How to Bridge the Gap between Modalities: A Comprehensive Survey on Multimodal Large Language Model [12.890344377484759]
本稿では,MLLM(Multimodal Large Language Models)について概説する。 MLLMはGPT-4のような大規模言語モデル(LLM)を統合し、テキストやビジョンなどのマルチモーダルデータを処理する。適切なモダリティアライメント法を選択することは重要である。
論文参考訳（メタデータ） (2023-11-10T09:51:24Z)
A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。既存の検出戦略とベンチマークの詳細な概要を提供する。また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文参考訳（メタデータ） (2023-10-24T09:10:26Z)
A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文参考訳（メタデータ） (2023-06-23T15:21:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。