論文の概要: Bridging the Gap between Expert and Language Models: Concept-guided Chess Commentary Generation and Evaluation
- arxiv url: http://arxiv.org/abs/2410.20811v1
- Date: Mon, 28 Oct 2024 07:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:19:18.337492
- Title: Bridging the Gap between Expert and Language Models: Concept-guided Chess Commentary Generation and Evaluation
- Title(参考訳): 専門家と言語モデルのギャップを埋める:概念誘導型チェス解説生成と評価
- Authors: Jaechang Kim, Jinmin Goh, Inseok Hwang, Jaewoong Cho, Jungseul Ok,
- Abstract要約: 概念誘導型Chess注釈生成法(CCC)を導入し,GPTに基づくChess注釈評価法(GCC-Eval)を用いて評価を行った。
CCCは、優先順位付けされた概念に基づく説明を通じて、専門家モデルの意思決定の強みとLLMの言語流布を統合する。
GCC-Evalは、専門家の知識を活用して、情報性と言語的品質に基づいて、チェスの解説を評価する。
- 参考スコア(独自算出の注目度): 9.277840736103554
- License:
- Abstract: Deep learning-based expert models have reached superhuman performance in decision-making domains such as chess and Go. However, it is under-explored to explain or comment on given decisions although it is important for human education and model explainability. The outputs of expert models are accurate, but yet difficult to interpret for humans. On the other hand, large language models (LLMs) produce fluent commentary but are prone to hallucinations due to their limited decision-making capabilities. To bridge this gap between expert models and LLMs, we focus on chess commentary as a representative case of explaining complex decision-making processes through language and address both the generation and evaluation of commentary. We introduce Concept-guided Chess Commentary generation (CCC) for producing commentary and GPT-based Chess Commentary Evaluation (GCC-Eval) for assessing it. CCC integrates the decision-making strengths of expert models with the linguistic fluency of LLMs through prioritized, concept-based explanations. GCC-Eval leverages expert knowledge to evaluate chess commentary based on informativeness and linguistic quality. Experimental results, validated by both human judges and GCC-Eval, demonstrate that CCC generates commentary that is accurate, informative, and fluent.
- Abstract(参考訳): ディープラーニングベースのエキスパートモデルは、チェスや囲碁といった意思決定領域で超人的なパフォーマンスを達成した。
しかし、人間の教育とモデル説明可能性にとって重要であるにもかかわらず、与えられた決定についての説明やコメントは、あまり研究されていない。
専門家モデルのアウトプットは正確だが、人間には解釈が難しい。
一方、大きな言語モデル(LLM)は、流動的な注釈を生成するが、意思決定能力に制限があるため幻覚を起こす傾向にある。
専門家モデルとLLMのギャップを埋めるために,言語による複雑な意思決定プロセスの説明と,解説の生成と評価の両方に対処する代表的な事例として,チェスの解説に焦点を当てる。
概念誘導型Chess注釈生成法(CCC)を導入し,GPTに基づくChess注釈評価法(GCC-Eval)を用いて評価を行った。
CCCは、優先順位付けされた概念に基づく説明を通じて、専門家モデルの意思決定の強みとLLMの言語流布を統合する。
GCC-Evalは、専門家の知識を活用して、情報性と言語的品質に基づいて、チェスの解説を評価する。
人間の判断とGCC-Evalによって検証された実験結果は、CCCが正確で、情報的で、流動的なコメントを生成することを示した。
関連論文リスト
- Enhancing Commentary Strategies for Imperfect Information Card Games: A Study of Large Language Models in Guandan Commentary [5.1244906826828736]
強化学習(RL)と大規模言語モデル(LLM)を組み合わせた新しい注釈手法を提案する。
本システムでは,RLを利用して複雑なカード再生シナリオを生成し,LLMを用いて対応する注釈文を生成する。
オープンソース LLM に適用した場合,提案する注釈フレームワークによって達成される性能の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-06-23T11:58:26Z) - Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - Aspect-based Sentiment Evaluation of Chess Moves (ASSESS): an NLP-based Method for Evaluating Chess Strategies from Textbooks [3.652509571098292]
本研究は, テキストに基づくチェスの動きを評価する手段として, 修正感情分析法の適用可能性について検討する。
移動行動句から洞察を抽出することにより,よりきめ細やかで文脈的に認識されたチェスの動きに基づく感情分類を提供することが目的である。
論文 参考訳(メタデータ) (2024-05-10T14:23:43Z) - Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - HD-Eval: Aligning Large Language Model Evaluators Through Hierarchical
Criteria Decomposition [92.17397504834825]
HD-Evalは、大規模な言語モデル評価ツールと人間の好みを反復的に調整するフレームワークである。
HD-Evalは、人間の専門家の評価思想から本質を継承し、LLMに基づく評価器のアライメントを強化する。
3つの評価領域に関する広範囲な実験は、HD-Evalのさらなる整合状態評価器の優位性を実証している。
論文 参考訳(メタデータ) (2024-02-24T08:01:32Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Large Language Models on the Chessboard: A Study on ChatGPT's Formal
Language Comprehension and Complex Reasoning Skills [4.138999291282392]
本稿では,OpenAIによる洗練された言語モデルChatGPTの性能について検討する。
チェスボードに対するChatGPTの理解,チェス規則の遵守,戦略的意思決定能力を評価する。
また本研究では,ChatGPTのゲームプレイにおけるコヒーレントな戦略への適合性や,意思決定的主張の顕著な上昇も明らかにした。
論文 参考訳(メタデータ) (2023-08-29T08:36:30Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文 参考訳(メタデータ) (2023-05-24T02:52:48Z) - Improving Chess Commentaries by Combining Language Models with Symbolic
Reasoning Engines [31.87260568733666]
本稿では, シンボリック推論エンジンと制御可能な言語モデルを組み合わせることで, チェスの解説を生成する方法について述べる。
我々は,従来の基準よりも人間の判断に好まれる注釈を生成することを実証するために実験を行った。
論文 参考訳(メタデータ) (2022-12-15T23:38:31Z) - Designing an Automatic Agent for Repeated Language based Persuasion
Games [32.20930723085839]
繰り返す送信者(専門家) -- 受信者(意思決定者)ゲームを考える。
senderは、世界の状況について完全に知らされ、受信者にいくつかの可能な自然言語レビューの1つを送ることで、取引を受け入れるよう説得することを目的としている。
我々は、この繰り返しゲームをプレイする自動専門家をデザインし、最大報酬を達成することを目指している。
論文 参考訳(メタデータ) (2021-05-11T12:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。