論文の概要: Baba Is AI: Break the Rules to Beat the Benchmark
- arxiv url: http://arxiv.org/abs/2407.13729v1
- Date: Thu, 18 Jul 2024 17:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:21:47.894049
- Title: Baba Is AI: Break the Rules to Beat the Benchmark
- Title(参考訳): ババ:AIはベンチマークに勝つためのルールを破る
- Authors: Nathan Cloos, Meagan Jens, Michelangelo Naim, Yen-Ling Kuo, Ignacio Cases, Andrei Barbu, Christopher J. Cueva,
- Abstract要約: ババ・イズ・ユー(Baba Is You)というゲームに基づく新しいベンチマークを開発し、エージェントが環境とルールの両方を操作し、その上で単語が書かれた可動タイルで表現し、特定のゴールに到達してゲームに勝つ。
我々は、最先端の3つの大規模言語モデル(OpenAI GPT-4o、Google Gemini-1.5-Pro、Gemini-1.5-Flash)を検証し、ゲームのルールを操作・組み合わせなければならない場合、それらが劇的に失敗することを発見した。
- 参考スコア(独自算出の注目度): 11.831335936328953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans solve problems by following existing rules and procedures, and also by leaps of creativity to redefine those rules and objectives. To probe these abilities, we developed a new benchmark based on the game Baba Is You where an agent manipulates both objects in the environment and rules, represented by movable tiles with words written on them, to reach a specified goal and win the game. We test three state-of-the-art multi-modal large language models (OpenAI GPT-4o, Google Gemini-1.5-Pro and Gemini-1.5-Flash) and find that they fail dramatically when generalization requires that the rules of the game must be manipulated and combined.
- Abstract(参考訳): 人間は既存のルールや手順に従うことで問題を解決し、創造性の飛躍によってこれらのルールや目的を再定義する。
そこでは,エージェントが環境とルールの両オブジェクトを操作し,それらに単語が書かれた可動タイルで表現し,特定のゴールに到達してゲームに勝つという,ババ・イズ・ユー(Baba Is You)というゲームに基づく新しいベンチマークを開発した。
我々は、最先端のマルチモーダル言語モデル(OpenAI GPT-4o、Google Gemini-1.5-Pro、Gemini-1.5-Flash)を3つテストし、ゲームのルールを操作・組み合わせなければならない場合、それらが劇的に失敗することを発見した。
関連論文リスト
- Policy Learning with a Language Bottleneck [65.99843627646018]
PLLBB(Policy Learning with a Language Bottleneck)は、AIエージェントが言語規則を生成するためのフレームワークである。
PLLBBは、言語モデルによってガイドされるルール生成ステップと、エージェントがルールによってガイドされる新しいポリシーを学ぶ更新ステップとを交互に使用する。
2人のプレイヤーによるコミュニケーションゲーム、迷路解決タスク、および2つの画像再構成タスクにおいて、PLLBBエージェントはより解釈可能で一般化可能な振る舞いを学習できるだけでなく、学習したルールを人間のユーザと共有できることを示す。
論文 参考訳(メタデータ) (2024-05-07T08:40:21Z) - Instruction-Driven Game Engines on Large Language Models [59.280666591243154]
IDGEプロジェクトは、大規模な言語モデルが自由形式のゲームルールに従うことを可能にすることで、ゲーム開発を民主化することを目的としている。
我々は、複雑なシナリオに対するモデルの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。
私たちの最初の進歩は、汎用的なカードゲームであるPoker用のIDGEを開発することです。
論文 参考訳(メタデータ) (2024-03-30T08:02:16Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - Mechanic Maker 2.0: Reinforcement Learning for Evaluating Generated
Rules [5.9135869246353305]
ルール生成のための人間遊びの近似器として強化学習の適用について検討する。
従来のAGD環境であるMechanic Maker in Unityを,新たなオープンソースルール生成フレームワークとして再現する。
論文 参考訳(メタデータ) (2023-09-18T04:15:09Z) - A Minimal Approach for Natural Language Action Space in Text-based Games [103.21433712630953]
本稿では,テキストベースのゲーム(TG)におけるアクション空間の探索という課題を再考する。
我々は,許容行動を利用する最小限のアプローチである$epsilon$-admissible Exploringをトレーニングフェーズに提案する。
本稿では,テキストベースのアクタ・クリティカル(TAC)エージェントを提案する。
論文 参考訳(メタデータ) (2023-05-06T16:05:27Z) - Keke AI Competition: Solving puzzle levels in a dynamically changing
mechanic space [5.2508303190856624]
ケケAIコンペティションは、Baba is Youというゲームのための人工エージェントコンペティションを導入する。
本稿では,提出されたエージェントのランク付けに使用されるフレームワークと評価指標について述べる。
論文 参考訳(メタデータ) (2022-09-11T17:50:27Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - Exploration Based Language Learning for Text-Based Games [72.30525050367216]
本研究は,テキストベースのコンピュータゲームにおいて,最先端の性能を発揮できる探索・模倣学習型エージェントを提案する。
テキストベースのコンピュータゲームは、自然言語でプレイヤーの世界を記述し、プレイヤーがテキストを使ってゲームと対話することを期待する。
これらのゲームは、言語理解、問題解決、および人工エージェントによる言語生成のためのテストベッドと見なすことができるため、興味がある。
論文 参考訳(メタデータ) (2020-01-24T03:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。