論文の概要: Cross-Entropy Games for Language Models: From Implicit Knowledge to General Capability Measures
- arxiv url: http://arxiv.org/abs/2506.06832v1
- Date: Sat, 07 Jun 2025 15:25:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.507305
- Title: Cross-Entropy Games for Language Models: From Implicit Knowledge to General Capability Measures
- Title(参考訳): 言語モデルのためのクロスエントロピーゲーム:暗黙の知識から一般的な能力対策へ
- Authors: Clément Hongler, Andrew Emil,
- Abstract要約: 大規模言語モデル (LLM) はテキスト上の確率測度を定義する。
これらの尺度に基づくゲームは、クロスエントロピー(Xent)ゲームに基づくゲームとして定式化することができる。
Xent Game空間は、基本的なゲーム理論の一貫性公理から構築可能でありながら、多くの興味深い例を含むのに十分な大きさであることを示す。
- 参考スコア(独自算出の注目度): 4.009867950503467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) define probability measures on text. By considering the implicit knowledge question of what it means for an LLM to know such a measure and what it entails algorithmically, we are naturally led to formulate a series of tasks that go beyond generative sampling, involving forms of summarization, counterfactual thinking, anomaly detection, originality search, reverse prompting, debating, creative solving, etc. These tasks can be formulated as games based on LLM measures, which we call Cross-Entropy (Xent) Games. Xent Games can be single-player or multi-player. They involve cross-entropy scores and cross-entropy constraints, and can be expressed as simple computational graphs and programs. We show the Xent Game space is large enough to contain a wealth of interesting examples, while being constructible from basic game-theoretic consistency axioms. We then discuss how the Xent Game space can be used to measure the abilities of LLMs. This leads to the construction of Xent Game measures: finite families of Xent Games that can be used as capability benchmarks, built from a given scope, by extracting a covering measure. To address the unbounded scope problem associated with the challenge of measuring general abilities, we propose to explore the space of Xent Games in a coherent fashion, using ideas inspired by evolutionary dynamics.
- Abstract(参考訳): 大規模言語モデル (LLM) はテキスト上の確率測度を定義する。
本研究は, LLMがそのような尺度を知っていて, アルゴリズムが持つ意味について, 暗黙的な知識問題を考えることによって, 要約, 対実的思考, 異常検出, 独創性探索, 逆プロンプト, 議論, 創造的解決など, 生成的サンプリングを超える一連のタスクを, 自然に定式化する。
これらのタスクは、クロスエントロピー(Xent)ゲームと呼ばれるLSM測度に基づくゲームとして定式化することができる。
Xent Gamesはシングルプレイヤーまたはマルチプレイヤーである。
これらはクロスエントロピースコアとクロスエントロピー制約を含み、単純な計算グラフやプログラムとして表すことができる。
Xent Game空間は、基本的なゲーム理論の一貫性公理から構築可能でありながら、多くの興味深い例を含むのに十分な大きさであることを示す。
次に、LLMの能力を測定するためにXent Game空間をどのように利用できるかについて議論する。
これはXent Gameの測度の構築につながる: 与えられたスコープから構築された能力ベンチマークとして使用できるXent Gamesの有限族である。
一般能力測定の課題に関連する非有界スコープ問題に対処するために,進化力学から着想を得たアイデアを用いて,Xent Gamesの空間を一貫性のある方法で探索することを提案する。
関連論文リスト
- TALES: Text Adventure Learning Environment Suite [28.997169350434795]
推論は、LLM(Large Language Models)が世界と対話するための重要なスキルである。
本稿では,多種多様な推論能力に挑戦し,評価するために設計された,多種多様な合成・人文テキストアドベンチャーゲームであるTALESを紹介する。
シンセサイザーゲームで目覚ましいショーがあったにもかかわらず、トップのLSM駆動エージェントでさえ、人間の楽しみのために設計されたゲームで15%を達成できなかった。
論文 参考訳(メタデータ) (2025-04-19T01:02:42Z) - GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash [6.65572931991284]
大きな言語モデル(LLM)は複雑なタスクや対話的な環境において印象的な機能を示している。
本稿では, LLMの創造性と論理的推論の両面を評価するために, Balderdash を利用したシミュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:42:48Z) - GAVEL: Generating Games Via Evolution and Language Models [40.896938709468465]
我々は,Ludiiゲーム記述言語における新規ゲームの生成について検討する。
我々は、コードとして表現されたゲームやメカニクスをインテリジェントに変更し、再結合するモデルを訓練する。
生成されたゲームのサンプルは、Ludiiポータルからオンラインでプレイすることができる。
論文 参考訳(メタデータ) (2024-07-12T16:08:44Z) - Learning Discrete-Time Major-Minor Mean Field Games [61.09249862334384]
本稿では,M3FG(Major-minor MFG)の新たな離散時間バージョンと,実演に基づく学習アルゴリズムを提案する。
M3FGは一般的な雑音でMFGを一般化し、ランダムな異種環境状態だけでなく、メジャープレイヤーも扱える。
論文 参考訳(メタデータ) (2023-12-17T18:22:08Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Exploration Based Language Learning for Text-Based Games [72.30525050367216]
本研究は,テキストベースのコンピュータゲームにおいて,最先端の性能を発揮できる探索・模倣学習型エージェントを提案する。
テキストベースのコンピュータゲームは、自然言語でプレイヤーの世界を記述し、プレイヤーがテキストを使ってゲームと対話することを期待する。
これらのゲームは、言語理解、問題解決、および人工エージェントによる言語生成のためのテストベッドと見なすことができるため、興味がある。
論文 参考訳(メタデータ) (2020-01-24T03:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。