論文の概要: Zweistein: A Dynamic Programming Evaluation Function for Einstein Würfelt Nicht!
- arxiv url: http://arxiv.org/abs/2502.15547v1
- Date: Fri, 21 Feb 2025 15:54:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:07:15.992065
- Title: Zweistein: A Dynamic Programming Evaluation Function for Einstein Würfelt Nicht!
- Title(参考訳): Zweistein: Einstein Würfelt Nichtの動的プログラミング評価関数!
- Authors: Wei Lin. Hsueh, Tsan Sheng. Hsu,
- Abstract要約: Zweistein は Einstein W "urfelt Nicht!
評価関数を構築するために人間の知識に頼る代わりに、Zweistein氏はデータ中心のアプローチを使用している。
ツヴァイシュタインはTCGA 2023で優勝した。
- 参考スコア(独自算出の注目度): 0.15785155409308343
- License:
- Abstract: This paper introduces Zweistein, a dynamic programming evaluation function for Einstein W\"urfelt Nicht! (EWN). Instead of relying on human knowledge to craft an evaluation function, Zweistein uses a data-centric approach that eliminates the need for parameter tuning. The idea is to use a vector recording the distance to the corner of all pieces. This distance vector captures the essence of EWN. It not only outperforms many traditional EWN evaluation functions but also won first place in the TCGA 2023 competition.
- Abstract(参考訳): 本稿では、Einstein W\"urfelt Nicht!の動的プログラミング評価関数であるZweisteinを紹介します。
(EWN)。
評価関数を構築するために人間の知識に頼る代わりに、Zweistein氏はパラメータチューニングの必要性を排除するデータ中心のアプローチを使用している。
アイデアは、すべての部品の角までの距離を記録するベクトルを使うことです。
この距離ベクトルはEWNの本質を捉える。
従来のEWN評価機能に勝るだけでなく、TCGA 2023のコンペでも優勝した。
関連論文リスト
- How to Select Datapoints for Efficient Human Evaluation of NLG Models? [57.60407340254572]
人間の評価に最も有用なデータポイントを得るためのセレクタ群を開発した。
本研究では,自動測定値の分散に基づくセレクタ,モデル出力の多様性,項目応答理論がランダム選択より優れていることを示す。
特に,情報源に基づく推定手法を導入し,情報源のテキストに基づいて人体評価に有用な項目を推定する。
論文 参考訳(メタデータ) (2025-01-30T10:33:26Z) - ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。
モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。
提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文 参考訳(メタデータ) (2024-10-24T18:02:37Z) - Code Soliloquies for Accurate Calculations in Large Language Models [22.1024285108075]
高品質な会話データセットは、Intelligent Tutoring Systemsの開発の成功に不可欠である。
これらのデータセットは、高度なGPT-4モデルを用いて生成される。
本設計では,GPT-4によって学生と教師の双方の役割をシミュレートした模擬会話を編成する。
提案手法は,特に計算集約的な被験者を対象に,合成会話データセットの品質を向上させる。
論文 参考訳(メタデータ) (2023-09-21T15:16:58Z) - On Orderings of Probability Vectors and Unsupervised Performance
Estimation [6.2163687973613495]
Linfty$ノルムは分類問題に最も適したスコア関数であることを示す。
我々は、よく知られたNLPデータセットの実験を行い、異なるスコア関数の性能を精査する。
論文 参考訳(メタデータ) (2023-06-16T20:03:16Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic
Mistakes [93.19166902594168]
テキスト生成評価のためのモデルベースメトリックを学習するための自己教師型アプローチSESCORE2を提案する。
鍵となる概念は、コーパスから取得した文を摂動することで、現実的なモデルミスを合成することである。
3言語にわたる4つのテキスト生成タスクにおいて,SESCORE2とそれ以前の手法を評価する。
論文 参考訳(メタデータ) (2022-12-19T09:02:16Z) - A Simple and Efficient Tensor Calculus for Machine Learning [18.23338916563815]
主要な関心事は、これらの表現の表現に依存する表現とその微分を評価する効率である。
ジャコビアンやヘッセンのようなテンソル表現の高次微分を計算するアルゴリズムが導入された。
ここでは、効率的なテンソル計算にはリッチ記法は必要ないことを示し、より単純なアインシュタイン記法のための等しく効率的な方法を開発する。
論文 参考訳(メタデータ) (2020-10-07T10:18:56Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Word2Vec: Optimal Hyper-Parameters and Their Impact on NLP Downstream
Tasks [1.6507910904669727]
ハイパーパラメータの最適組み合わせを示し、様々な組み合わせを評価する。
提案手法は,従来のモデルと比較して,より優れた人為的なWordSimスコア,対応するSpearman相関,ダウンストリーム性能を得る。
論文 参考訳(メタデータ) (2020-03-23T07:38:17Z) - Fast and Robust Comparison of Probability Measures in Heterogeneous
Spaces [62.35667646858558]
本稿では, アンカー・エナジー (AE) とアンカー・ワッサースタイン (AW) 距離を紹介する。
我々の主な貢献は、素案実装が立方体となる対数四重項時間でAEを正確に計算するスイープラインアルゴリズムを提案することである。
AE と AW は,一般的な GW 近似の計算コストのごく一部において,様々な実験環境において良好に動作することを示す。
論文 参考訳(メタデータ) (2020-02-05T03:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。