論文の概要: From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models
- arxiv url: http://arxiv.org/abs/2409.18996v1
- Date: Thu, 19 Sep 2024 02:51:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 05:10:43.378542
- Title: From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models
- Title(参考訳): 言語ジャイアンツから感覚マストロへ:大規模言語モデルを用いたクロスモーダル推論に関する調査
- Authors: Shengsheng Qian, Zuyi Zhou, Dizhan Xue, Bing Wang, Changsheng Xu,
- Abstract要約: クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
- 参考スコア(独自算出の注目度): 56.9134620424985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-modal reasoning (CMR), the intricate process of synthesizing and drawing inferences across divergent sensory modalities, is increasingly recognized as a crucial capability in the progression toward more sophisticated and anthropomorphic artificial intelligence systems. Large Language Models (LLMs) represent a class of AI algorithms specifically engineered to parse, produce, and engage with human language on an extensive scale. The recent trend of deploying LLMs to tackle CMR tasks has marked a new mainstream of approaches for enhancing their effectiveness. This survey offers a nuanced exposition of current methodologies applied in CMR using LLMs, classifying these into a detailed three-tiered taxonomy. Moreover, the survey delves into the principal design strategies and operational techniques of prototypical models within this domain. Additionally, it articulates the prevailing challenges associated with the integration of LLMs in CMR and identifies prospective research directions. To sum up, this survey endeavors to expedite progress within this burgeoning field by endowing scholars with a holistic and detailed vista, showcasing the vanguard of current research whilst pinpointing potential avenues for advancement. An associated GitHub repository that collects the relevant papers can be found at https://github.com/ZuyiZhou/Awesome-Cross-modal-Reasoning-with-LLMs
- Abstract(参考訳): クロスモーダル推論(英語: Cross-modal reasoning, CMR)は、より高度で人為的な人工知能システムへの進化において重要な能力として認識される。
大規模言語モデル(Large Language Models, LLM)は、人間の言語を解析、生成、関与するために特別に設計されたAIアルゴリズムのクラスである。
近年、CMRタスクに対処するためにLLMをデプロイする傾向は、その有効性を高めるための新しいアプローチの主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
さらに、この調査は、この領域における原型モデルの主要な設計戦略と運用手法を掘り下げている。
さらに、LCMをCMRに統合する際の課題を明確にし、今後の研究の方向性を明らかにする。
まとめると、この調査は、総合的で詳細な視界を持つ学者を育成し、現在の研究の先駆者でありながら、進歩のための潜在的な道を見極めることで、この急成長の分野における進歩を早める努力である。
関連する論文を収集するGitHubリポジトリはhttps://github.com/ZuyiZhou/Awesome-Cross-modal-Reasoning-with-LLMsにある。
関連論文リスト
- Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - A Survey on Multimodal Benchmarks: In the Era of Large AI Models [13.299775710527962]
MLLM(Multimodal Large Language Models)は、人工知能に大きな進歩をもたらした。
この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューする。
論文 参考訳(メタデータ) (2024-09-21T15:22:26Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - Multi-step Inference over Unstructured Data [2.169874047093392]
医療、法律、金融などの分野における高い意思決定タスクは、精度、包括性、論理的一貫性のレベルを必要とする。
これらの問題に対処するための,ニューロシンボリックAIプラットフォームを開発した。
このプラットフォームは、知識抽出とアライメントのための微調整LDMと、堅牢なシンボリック推論エンジンを統合している。
論文 参考訳(メタデータ) (2024-06-26T00:00:45Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - Bridging Causal Discovery and Large Language Models: A Comprehensive
Survey of Integrative Approaches and Future Directions [10.226735765284852]
因果発見(CD)とLarge Language Models(LLM)は、人工知能に重要な意味を持つ2つの新しい研究分野を表す。
本稿では,CDタスクへのLPM(GPT4など)の統合に関する総合的な調査を行う。
論文 参考訳(メタデータ) (2024-02-16T20:48:53Z) - Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z) - Advances in Embodied Navigation Using Large Language Models: A Survey [16.8165925743264]
この記事では、Large Language ModelsとEmbodied Intelligenceの共生について概説する。
最先端のモデル、研究方法論をレビューし、既存の埋め込みナビゲーションモデルとデータセットの利点とデメリットを評価する。
最後に, 本論文は, インテリジェンスにおけるLLMの役割を解明し, 今後の方向性を予測している。
論文 参考訳(メタデータ) (2023-11-01T14:08:56Z) - Large Language Models for Information Retrieval: A Survey [58.30439850203101]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。