論文の概要: Retrieving Multimodal Information for Augmented Generation: A Survey
- arxiv url: http://arxiv.org/abs/2303.10868v1
- Date: Mon, 20 Mar 2023 05:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:50:59.975984
- Title: Retrieving Multimodal Information for Augmented Generation: A Survey
- Title(参考訳): 世代拡大のためのマルチモーダル情報の検索:サーベイ
- Authors: Ruochen Zhao, Hailin Chen, Weishi Wang, Fangkai Jiao, Xuan Long Do,
Chengwei Qin, Bosheng Ding, Xiaobao Guo, Minzhi Li, Xingxuan Li, Shafiq Joty
- Abstract要約: このグループは、画像、コード、テーブル、グラフ、オーディオを含む外部ソースから接地コンテキストを取得することに焦点を当てている。
本稿では,様々なモダリティによる検索拡張生成の詳細なレビューを行い,今後の方向性について論じる。
- 参考スコア(独自算出の注目度): 8.993421523868538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this survey, we review methods that retrieve multimodal knowledge to
assist and augment generative models. This group of works focuses on retrieving
grounding contexts from external sources, including images, codes, tables,
graphs, and audio. As multimodal learning and generative AI have become more
and more impactful, such retrieval augmentation offers a promising solution to
important concerns such as factuality, reasoning, interpretability, and
robustness. We provide an in-depth review of retrieval-augmented generation in
different modalities and discuss potential future directions. As this is an
emerging field, we continue to add new papers and methods.
- Abstract(参考訳): 本稿では,生成モデルを支援するマルチモーダル知識を取得する手法について検討する。
このグループは、画像、コード、テーブル、グラフ、オーディオを含む外部ソースからの接地コンテキストの検索に焦点を当てている。
マルチモーダル学習と生成AIがますます影響力を増すにつれて、このような検索強化は、事実性、推論、解釈可能性、堅牢性といった重要な問題に対する有望な解決策を提供する。
本稿では,様々なモダリティによる検索拡張生成の詳細なレビューを行い,今後の方向性について論じる。
これが新興分野であるので、新たな論文やメソッドを追加し続けます。
関連論文リスト
- Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [56.00281164118548]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。
本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文 参考訳(メタデータ) (2023-12-01T16:00:25Z) - How to Bridge the Gap between Modalities: A Comprehensive Survey on
Multimodal Large Language Model [12.890344377484759]
本稿では,MLLM(Multimodal Large Language Models)について概説する。
MLLMはGPT-4のような大規模言語モデル(LLM)を統合し、テキストやビジョンなどのマルチモーダルデータを処理する。
適切なモダリティアライメント法を選択することは重要である。
論文 参考訳(メタデータ) (2023-11-10T09:51:24Z) - Trends in Integration of Knowledge and Large Language Models: A Survey
and Taxonomy of Methods, Benchmarks, and Applications [42.61727038213399]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた性能を示すが、時代遅れのデータやドメイン固有の制限から生じる問題の影響を受けやすい。
本稿では,手法,ベンチマーク,応用の分類など,知識モデルと大規模言語モデルの統合の動向を論じるレビューを提案する。
論文 参考訳(メタデータ) (2023-11-10T05:24:04Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - A Comprehensive Overview of Large Language Models [70.78732351626734]
大規模言語モデル(LLM)は、最近自然言語処理タスクにおいて顕著な機能を示した。
本稿では, LLM関連概念の幅広い範囲について, 既存の文献について概説する。
論文 参考訳(メタデータ) (2023-07-12T20:01:52Z) - Multimodality Representation Learning: A Survey on Evolution,
Pretraining and Its Applications [47.501121601856795]
マルチモダリティ表現学習は、異なるモダリティとそれらの相関から情報を埋め込む学習手法である。
異なるモダリティからのクロスモーダル相互作用と補完情報は、高度なモデルが任意のマルチモーダルタスクを実行するために不可欠である。
本調査では,深層学習型マルチモーダルアーキテクチャの進化と拡張に関する文献を報告する。
論文 参考訳(メタデータ) (2023-02-01T11:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。