論文の概要: AGI Is Coming... Right After AI Learns to Play Wordle
- arxiv url: http://arxiv.org/abs/2504.15434v1
- Date: Mon, 21 Apr 2025 20:58:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 01:22:52.547471
- Title: AGI Is Coming... Right After AI Learns to Play Wordle
- Title(参考訳): AIがWordleをプレイした直後にAGIが登場
- Authors: Sarath Shekkizhar, Romain Cosentino,
- Abstract要約: マルチモーダルエージェント、特にOpenAIのComputer-User Agent (CUA)は、人間のように標準的なコンピュータインターフェースを通じてタスクを制御および完了するよう訓練されている。
The New York Times Wordle game におけるエージェントのパフォーマンスを評価し,モデル行動の抽出と欠点の同定を行った。
- 参考スコア(独自算出の注目度): 4.2909314120969855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates multimodal agents, in particular, OpenAI's Computer-User Agent (CUA), trained to control and complete tasks through a standard computer interface, similar to humans. We evaluated the agent's performance on the New York Times Wordle game to elicit model behaviors and identify shortcomings. Our findings revealed a significant discrepancy in the model's ability to recognize colors correctly depending on the context. The model had a $5.36\%$ success rate over several hundred runs across a week of Wordle. Despite the immense enthusiasm surrounding AI agents and their potential to usher in Artificial General Intelligence (AGI), our findings reinforce the fact that even simple tasks present substantial challenges for today's frontier AI models. We conclude with a discussion of the potential underlying causes, implications for future development, and research directions to improve these AI systems.
- Abstract(参考訳): 本稿では,マルチモーダルエージェント,特に OpenAI の Computer-User Agent (CUA) について検討する。
The New York Times Wordle game におけるエージェントのパフォーマンスを評価し,モデル行動の抽出と欠点の同定を行った。
その結果,文脈によって色を正しく認識する能力の相違が明らかとなった。
このモデルはWordleの週に数百回のランで$5.36\%の成功率を記録した。
AIエージェントを取り巻く膨大な熱意と、AI(Artificial General Intelligence, AGI)を駆り立てる可能性にもかかわらず、私たちの発見は、単純なタスクでさえ、今日のフロンティアAIモデルに重大な課題をもたらすという事実を補強しています。
我々は、これらのAIシステムを改善するための潜在的な原因、今後の発展への示唆、研究の方向性について、議論を締めくくった。
関連論文リスト
- Evaluating Intelligence via Trial and Error [59.80426744891971]
本研究では,試行錯誤プロセスにおける失敗回数に基づいて知性を評価するためのフレームワークとして,Survival Gameを紹介した。
フェールカウントの期待と分散の両方が有限である場合、新しい課題に対するソリューションを一貫して見つける能力を示す。
我々の結果は、AIシステムは単純なタスクで自律レベルを達成するが、より複雑なタスクではまだまだ遠いことを示している。
論文 参考訳(メタデータ) (2025-02-26T05:59:45Z) - Are Large Language Models Ready for Business Integration? A Study on Generative AI Adoption [0.6144680854063939]
本研究では,Google Geminiのような他の大規模言語モデル(LLM)のビジネスアプリケーションへの適用性について検討する。
ディズニーランドの異なる支店からの42,654件のレビューデータセットが採用された。
その結果、75%の成功率、25%のエラー、モデル自己参照の事例など、反応のスペクトルが示された。
論文 参考訳(メタデータ) (2025-01-28T21:01:22Z) - AI-Driven Agents with Prompts Designed for High Agreeableness Increase the Likelihood of Being Mistaken for a Human in the Turing Test [0.0]
チューリング試験では, 適合性の異なるGPT剤を試験した。
混乱率は50%を超え、AIエージェントは60%を超えた。
この薬は、最も人間らしい特徴を示すものと認識された。
論文 参考訳(メタデータ) (2024-11-20T23:12:49Z) - ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Generative AI in Writing Research Papers: A New Type of Algorithmic Bias
and Uncertainty in Scholarly Work [0.38850145898707145]
大規模言語モデル(LLM)と生成AIツールは、バイアスを特定し、対処する上での課題を提示している。
生成型AIツールは、不正な一般化、幻覚、レッド・チーム・プロンプトのような敵攻撃を目標とする可能性がある。
研究原稿の執筆過程に生成AIを組み込むことで,新しいタイプの文脈依存型アルゴリズムバイアスがもたらされることがわかった。
論文 参考訳(メタデータ) (2023-12-04T04:05:04Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - AI for IT Operations (AIOps) on Cloud Platforms: Reviews, Opportunities
and Challenges [60.56413461109281]
IT運用のための人工知能(AIOps)は、AIのパワーとIT運用プロセスが生成するビッグデータを組み合わせることを目的としている。
我々は、IT運用活動が発信する重要なデータの種類、分析における規模と課題、そしてどのように役立つかについて深く議論する。
主要なAIOpsタスクは、インシデント検出、障害予測、根本原因分析、自動アクションに分類します。
論文 参考訳(メタデータ) (2023-04-10T15:38:12Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - Brittle AI, Causal Confusion, and Bad Mental Models: Challenges and
Successes in the XAI Program [17.52385105997044]
ディープニューラルネットワーク駆動モデルは、ベンチマークの自律性タスクにおいて、人間レベルのパフォーマンスを上回っている。
しかし、これらのエージェントの根底にあるポリシーは容易には解釈できない。
本稿では,これらの取組みの起源を論じ,情報の増幅と今後の課題について提案する。
論文 参考訳(メタデータ) (2021-06-10T05:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。