論文の概要: On the Unexpected Abilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2308.09720v2
- Date: Mon, 18 Dec 2023 16:17:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 23:21:53.288947
- Title: On the Unexpected Abilities of Large Language Models
- Title(参考訳): 大規模言語モデルの予期せぬ能力について
- Authors: Stefano Nolfi
- Abstract要約: 大規模言語モデル(LLM)は、訓練対象のタスクに直接関連しない幅広い能力を示すことができる。
本稿では,これらの認知能力獲得につながる間接的プロセスの性質,他の間接的プロセスとの関係,統合的能力獲得の意義について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are capable of displaying a wide range of
abilities that are not directly connected with the task for which they are
trained: predicting the next words of human-written texts. In this article, I
review recent research investigating the cognitive abilities developed by LLMs
and their relation to human cognition. I discuss the nature of the indirect
process that leads to the acquisition of these cognitive abilities, their
relation to other indirect processes, and the implications for the acquisition
of integrated abilities. Moreover, I propose the factors that enable the
development of abilities that are related only very indirectly to the proximal
objective of the training task. Finally, I discuss whether the full set of
capabilities that LLMs could possibly develop is predictable.
- Abstract(参考訳): 大規模言語モデル(llm)は、訓練対象のタスクとは直接関係のない幅広い能力、すなわち、人間が書いたテキストの次の単語を予測する能力を発揮することができる。
本稿では,llmsが発達する認知能力と人間の認知との関係に関する最近の研究を概観する。
本稿では,これらの認知能力獲得につながる間接的プロセスの性質,他の間接的プロセスとの関係,統合的能力獲得の意義について論じる。
さらに,訓練課題の近位目標と間接的にのみ関連する能力の発達を可能にする因子を提案する。
最後に、LLMが開発できる機能の全セットが予測可能であるかどうかについて議論する。
関連論文リスト
- Can Language Models Learn to Skip Steps? [59.84848399905409]
我々は推論においてステップをスキップする能力について研究する。
効率を高めたり認知負荷を減らすためのステップをスキップする人間とは異なり、モデルはそのようなモチベーションを持っていない。
私たちの研究は、人間のようなステップスキッピング能力に関する最初の調査である。
論文 参考訳(メタデータ) (2024-11-04T07:10:24Z) - Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - Predicting and Understanding Human Action Decisions: Insights from Large Language Models and Cognitive Instance-Based Learning [0.0]
大きな言語モデル(LLM)は、様々なタスクにまたがってその能力を実証している。
本稿では,LLMの推論と生成能力を利用して,2つの逐次意思決定タスクにおける人間の行動を予測する。
我々は,LLMの性能を,人間の経験的意思決定を模倣した認知的インスタンスベース学習モデルと比較した。
論文 参考訳(メタデータ) (2024-07-12T14:13:06Z) - Development of Cognitive Intelligence in Pre-trained Language Models [3.1815791977708834]
近年の研究では、大規模事前学習言語モデルにおける創発的認知能力の証拠が示されている。
PLMの発達軌跡は、人間の認知発達に対する最大限の調整の窓を一貫して示している。
この窓のあと、トレーニングは損失を減らすという工学的な目標に役立っているように見えるが、人間の認知との整合性を高めるという科学的目標ではない。
論文 参考訳(メタデータ) (2024-07-01T07:56:36Z) - Exploring the LLM Journey from Cognition to Expression with Linear Representations [10.92882688742428]
本稿では,大規模言語モデル(LLM)における認知的・表現的能力の進化と相互作用について,詳細な検討を行う。
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)の3つの重要なフェーズにまたがる線形表現を通して、モデルの認知的・表現的能力を定義し、探求する。
SFT, RLHFでは, 認知能力が発達する傾向がみられ, 認知能力が発達する傾向がみられた。
論文 参考訳(メタデータ) (2024-05-27T08:57:04Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。