Fugu-MT 論文翻訳(概要): Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models

論文の概要: Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models

arxiv url: http://arxiv.org/abs/2307.03762v1
Date: Fri, 7 Jul 2023 13:58:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-11 17:36:10.195300
Title: Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models
Title（参考訳）: vatにおける脳--大言語モデルにおける人工知能への欠片について
Authors: Yuxi Ma, Chi Zhang, Song-Chun Zhu
Abstract要約: 本稿では,知的エージェントの4つの特徴について述べる。実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
参考スコア（独自算出の注目度）: 83.63242931107638
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this perspective paper, we first comprehensively review existing evaluations of Large Language Models (LLMs) using both standardized tests and ability-oriented benchmarks. We pinpoint several problems with current evaluation methods that tend to overstate the capabilities of LLMs. We then articulate what artificial general intelligence should encompass beyond the capabilities of LLMs. We propose four characteristics of generally intelligent agents: 1) they can perform unlimited tasks; 2) they can generate new tasks within a context; 3) they operate based on a value system that underpins task generation; and 4) they have a world model reflecting reality, which shapes their interaction with the world. Building on this viewpoint, we highlight the missing pieces in artificial general intelligence, that is, the unity of knowing and acting. We argue that active engagement with objects in the real world delivers more robust signals for forming conceptual representations. Additionally, knowledge acquisition isn't solely reliant on passive input but requires repeated trials and errors. We conclude by outlining promising future research directions in the field of artificial general intelligence.
Abstract（参考訳）: 本稿では,従来のLLM(Large Language Models)の評価を,標準化されたテストと能力指向ベンチマークの両方を用いて総合的にレビューする。我々はLLMの性能を過大評価する現在の評価手法にいくつかの問題を指摘している。次に、LLMの能力を超えて、人工知能が何を包含すべきかを明確にする。一般知能エージェントの4つの特徴を提案する。 1) 無制限のタスクを実行できる。 2) コンテキスト内で新しいタスクを生成することができる。 3)タスク生成の基盤となる価値システムに基づいて運用する。 4) 現実を反映した世界モデルがあり、世界との相互作用を形作る。この観点から,人工知能の欠落した部分,すなわち知識と行動の統一性に注目した。現実世界のオブジェクトとのアクティブなエンゲージメントは、概念表現を形成するためのより強固なシグナルをもたらすと主張する。さらに、知識獲得は受動的入力にのみ依存するのではなく、繰り返し試行錯誤を必要とする。最後に,人工知能の分野における将来研究の方向性を概説する。

関連論文リスト

Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文参考訳（メタデータ） (2025-07-28T23:50:09Z)
Pixels, Patterns, but No Poetry: To See The World like Humans [33.773551676022514]
最先端のMLLMは、人間にとって簡単な私たちの知覚上のタスクに破滅的な失敗を示します。この論文は、推論から知覚へと焦点を移す。
論文参考訳（メタデータ） (2025-07-21T21:50:16Z)
From Passive to Active Reasoning: Can Large Language Models Ask the Right Questions under Incomplete Information? [34.959850282872594]
LLMのアクティブな推論能力を評価するために設計された新しいベンチマークであるAR-Benchを提案する。 AR-Benchは3つのタスクファミリー検出ケース、状況パズル、推測数で構成される。 AR-ベンチに関する実証的な評価は、現代のLDMは活発な推論を伴う困難を顕著に示していることを示している。
論文参考訳（メタデータ） (2025-06-09T23:56:41Z)
Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [75.26829371493189]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文参考訳（メタデータ） (2025-06-03T09:01:08Z)
Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning [53.45295657891099]
本稿では,マルチモーダルなマルチターン・チェーン・オブ・シークレット・推論・フレームワークであるVisual-O1を提案する。人間のマルチモーダルなマルチターン推論をシミュレートし、高度にインテリジェントなモデルに即時体験を提供する。私たちの研究は、不確実性と曖昧さのある現実のシナリオにおいて、人工知能が人間のように機能する可能性を強調します。
論文参考訳（メタデータ） (2024-10-04T11:18:41Z)
How to Measure the Intelligence of Large Language Models? [0.24578723416255752]
言語モデルのインテリジェンスは、タスク固有の統計指標によってのみ評価されるべきではない、と我々は主張する。我々は,メトリクスの選択が,潜在的なインテリジェンスの発生に対する評価に劇的な影響を及ぼすことを示した。
論文参考訳（メタデータ） (2024-07-30T13:53:48Z)
Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI [129.08019405056262]
人工知能(Embodied AI)は、人工知能(AGI)の実現に不可欠である MLMとWMは、その顕著な知覚、相互作用、推論能力のために、大きな注目を集めている。本調査では,Embodied AIの最近の進歩を包括的に調査する。
論文参考訳（メタデータ） (2024-07-09T14:14:47Z)
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。 WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-07T07:15:49Z)
Can large language models understand uncommon meanings of common words? [30.527834781076546]
大規模言語モデル(LLM)は、様々な自然言語理解(NLU)タスクに大きく進歩している。しかし、LLMがオウムなのか、本当の意味で世界を理解するのかは、広く認知されている試験機構が欠如している。本稿では,新しい評価指標を用いたレキシカルセマンティックデータセットの革新的構築について述べる。
論文参考訳（メタデータ） (2024-05-09T12:58:22Z)
A Survey on Robotics with Foundation Models: toward Embodied AI [30.999414445286757]
近年のコンピュータビジョン,自然言語処理,マルチモーダリティ学習の進歩は,基礎モデルが特定のタスクに対して超人的能力を持つことを示している。この調査は、ロボット工学の基礎モデルの包括的で最新の概要を提供し、自律的な操作に焦点を当て、高レベルの計画と低レベルの制御を包含することを目的としている。
論文参考訳（メタデータ） (2024-02-04T07:55:01Z)
MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文参考訳（メタデータ） (2023-11-16T08:52:27Z)
A Sentence is Worth a Thousand Pictures: Can Large Language Models Understand Hum4n L4ngu4ge and the W0rld behind W0rds? [2.7342737448775534]
LLM(Large Language Models)は、人間の言語的パフォーマンスに関する主張と関連付けられている。対象認知システムの理論的に有意な表現としてLLMの寄与を分析する。我々は,より高い処理レベルからのトップダウンフィードバックを通じて,モデルが全体像を見る能力を評価する。
論文参考訳（メタデータ） (2023-07-26T18:58:53Z)
WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文参考訳（メタデータ） (2021-10-27T12:25:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。