論文の概要: A Survey on Large Language Models with some Insights on their Capabilities and Limitations
- arxiv url: http://arxiv.org/abs/2501.04040v1
- Date: Fri, 03 Jan 2025 21:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:57:09.019861
- Title: A Survey on Large Language Models with some Insights on their Capabilities and Limitations
- Title(参考訳): 大規模言語モデルに関する調査研究 : その能力と限界について
- Authors: Andrea Matarazzo, Riccardo Torlone,
- Abstract要約: 大規模言語モデル(LLM)は、様々な言語関連タスクで顕著なパフォーマンスを示す。
LLMは、そのコア機能を超えて、創発的な能力を示す。
本稿では,これらの機能を実現する基盤となるコンポーネント,スケーリング機構,アーキテクチャ戦略について検討する。
- 参考スコア(独自算出の注目度): 0.3222802562733786
- License:
- Abstract: The rapid advancement of artificial intelligence, particularly with the development of Large Language Models (LLMs) built on the transformer architecture, has redefined the capabilities of natural language processing. These models now exhibit remarkable performance across various language-related tasks, such as text generation, question answering, translation, and summarization, often rivaling human-like comprehension. More intriguingly, LLMs have demonstrated emergent abilities extending beyond their core functions, showing proficiency in tasks like commonsense reasoning, code generation, and arithmetic. This survey paper explores the foundational components, scaling mechanisms, and architectural strategies that drive these capabilities. Emphasizing models like GPT and LLaMA, we analyze the impact of exponential data and computational growth on LLM performance, while also addressing the trade-offs associated with scaling. We also examine LLM applications across sectors, such as healthcare, finance, education, and law, highlighting their adaptability and potential to solve domain-specific challenges. Central to this work are the questions of how LLMs generalize across diverse tasks, exhibit planning, and reasoning abilities, and whether these emergent abilities can be systematically elicited or enhanced. In particular, we provide some insights into the CoT (Chain of Thought) and PoT (Plan of Thought) abilities within LLMs, focusing on how pre-training data influences their emergence. Additionally, we investigate LLM-modulo frameworks that integrate external systems, allowing LLMs to handle complex, dynamic tasks. By analyzing these factors, this paper aims to foster the ongoing discussion on the capabilities and limits of LLMs, promoting their responsible development and application in novel and increasingly complex environments.
- Abstract(参考訳): 人工知能の急速な進歩、特にトランスフォーマーアーキテクチャ上に構築された大規模言語モデル(LLM)の開発は、自然言語処理の機能を再定義した。
これらのモデルは現在、テキスト生成、質問応答、翻訳、要約など、様々な言語関連のタスクで顕著なパフォーマンスを示しており、しばしば人間のような理解に匹敵する。
より興味深いことに、LLMは、コア機能を超えた創発的な能力を示し、常識推論、コード生成、算術といったタスクの習熟度を示している。
本稿では,これらの機能を実現する基盤となるコンポーネント,スケーリング機構,アーキテクチャ戦略について検討する。
GPTやLLaMAのようなモデルを強調し、指数データと計算的成長がLLMのパフォーマンスに与える影響を解析し、スケーリングに関連するトレードオフにも対処する。
また、医療、金融、教育、法律などの分野にまたがるLLM適用について検討し、その適応性とドメイン固有の課題を解決する可能性を強調した。
この研究の中心は、LCMが様々なタスクにまたがってどのように一般化し、計画や推論能力を示し、これらの創発的能力が体系的に引き起こされたり、強化されたりできるかという問題である。
特に、事前学習したデータがそれらの出現にどのように影響するかに焦点を当て、LLM内のCoT(Chain of Thought)とPoT(Plan of Thought)の能力についていくつかの洞察を提供する。
さらに、外部システムを統合するLCM-moduloフレームワークについて検討し、LCMが複雑な動的タスクを処理できるようにする。
これらの要因を解析することにより,LLMの能力と限界に関する議論を活発化させ,新たな複雑な環境における責任ある開発と応用を促進することを目的としている。
関連論文リスト
- Survey of different Large Language Model Architectures: Trends, Benchmarks, and Challenges [15.850548556536538]
大規模言語モデル(LLMs)は、自然言語の理解に精通したディープラーニングモデルのクラスである。
これらのモデルの先進的なサブセットであるMultimodal Large Language Models (MLLM)は、複数のデータモダリティを処理および解釈するためにLLM機能を拡張している。
本調査は,LLMの最近の進歩を概観する。
論文 参考訳(メタデータ) (2024-12-04T11:14:06Z) - Measuring Emergent Capabilities of LLMs for Software Engineering: How Far Are We? [45.126233498200534]
ソフトウェア工学の文脈における能力の出現について検討する。
本稿では、バグ修正、コード翻訳、コミットメッセージ生成という3つのSEタスクでこの現象を評価するためのモデルに依存しないパイプラインを提案する。
我々の発見は、選択したタスクセットのモデルサイズをスケールすることによる創発的能力の概念を支持する証拠を提供していない。
論文 参考訳(メタデータ) (2024-11-26T22:48:55Z) - A Comprehensive Survey and Guide to Multimodal Large Language Models in Vision-Language Tasks [5.0453036768975075]
MLLM(Large Language Model)は、テキスト、画像、ビデオ、オーディオを統合し、モーダルな理解と生成のためのAIシステムを実現する。
Bookは、スケーラビリティ、堅牢性、およびクロスモーダル学習における重要な課題に対処しながら、MLLM実装の顕著な点について検討している。
倫理的考察、責任あるAI開発、そして今後の方向性に関する議論をまとめると、この権威あるリソースは理論的な枠組みと実践的な洞察の両方を提供する。
論文 参考訳(メタデータ) (2024-11-09T20:56:23Z) - Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Prompting Large Language Models for Counterfactual Generation: An
Empirical Study [13.506528217009507]
大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。
本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。