Fugu-MT 論文翻訳(概要): Language Model-In-The-Loop: Data Optimal Approach to Learn-To-Recommend Actions in Text Games

論文の概要: Language Model-In-The-Loop: Data Optimal Approach to Learn-To-Recommend Actions in Text Games

arxiv url: http://arxiv.org/abs/2311.07687v1
Date: Mon, 13 Nov 2023 19:12:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 16:48:03.050431
Title: Language Model-In-The-Loop: Data Optimal Approach to Learn-To-Recommend Actions in Text Games
Title（参考訳）: 言語モデル・イン・ザ・ループ:テキストゲームにおける学習・推薦行動に対するデータ最適アプローチ
Authors: Arjun Vaithilingam Sudhakar, Prasanna Parthasarathi, Janarthanan Rajendran, Sarath Chandar
Abstract要約: 大きな言語モデル(LLM)は、言語理解ベンチマークにおいて優れたパフォーマンスを示している。 LLMは、テキストゲームのパフォーマンスを改善するためのアクション候補レコメンデーションに、LDM -- GPT-2 -- の言語的先行性を活用する。 CalMは、注釈付き人間のゲームプレイでGPT-2を適応させ、テキストベースのゲームの学習中にLLMを固定し続ける。
参考スコア（独自算出の注目度）: 16.281640651021434
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have demonstrated superior performance in language understanding benchmarks. CALM, a popular approach, leverages linguistic priors of LLMs -- GPT-2 -- for action candidate recommendations to improve the performance in text games in Jericho without environment-provided actions. However, CALM adapts GPT-2 with annotated human gameplays and keeps the LLM fixed during the learning of the text based games. In this work, we explore and evaluate updating LLM used for candidate recommendation during the learning of the text based game as well to mitigate the reliance on the human annotated gameplays, which are costly to acquire. We observe that by updating the LLM during learning using carefully selected in-game transitions, we can reduce the dependency on using human annotated game plays for fine-tuning the LLMs. We conducted further analysis to study the transferability of the updated LLMs and observed that transferring in-game trained models to other games did not result in a consistent transfer.
Abstract（参考訳）: 大きな言語モデル(LLM)は、言語理解ベンチマークにおいて優れたパフォーマンスを示している。一般的なアプローチであるCALMは、環境に配慮したアクションを伴わずにJerrichoのテキストゲームのパフォーマンスを改善するためのアクション候補レコメンデーションとして、LDMの言語的先行 -- GPT-2 -- を活用する。しかし、CALMはGPT-2に注釈付きゲームプレイを適応させ、テキストベースのゲームの学習中にLCMを固定し続ける。本研究は,テキストベースのゲーム学習における候補推薦に使用されるLSMの更新について検討・評価し,取得に要する注釈付きゲームプレイへの依存を軽減することを目的とする。ゲーム内遷移を慎重に選択して学習中にLLMを更新することにより,LLMを微調整するために人間のアノテートゲームプレイによる依存を減らすことができる。改良されたLLMの転送可能性についてさらなる分析を行い、ゲーム内トレーニングされたモデルを他のゲームに転送しても一貫した転送にはならないことを示した。

関連論文リスト

Grammar and Gameplay-aligned RL for Game Description Generation with LLMs [12.329521804287259]
ゲーム記述生成(GDG)は、自然言語テキストからゲーム記述言語(GDL)で記述されたゲーム記述を生成するタスクである。 GDG(RLGDG)のためのLarge Language Models(LLM)の強化学習に基づく微調整を提案する。学習方法は,文法報酬と概念報酬の両方を導入することにより,ゲームコンセプトに対する文法的正しさと忠実さを同時に向上させる。
論文参考訳（メタデータ） (2025-03-20T01:47:33Z)
Can Large Language Models Capture Video Game Engagement? [1.3873323883842132]
我々は、ビデオの連続的な影響アノテーションを注釈化し、うまく予測する一般的な大規模言語モデルの能力を包括的に評価する。我々は, LLMアーキテクチャ, モデルサイズ, 入力モダリティ, プロンプト戦略, エンゲージメント予測に対する接地真理処理法の影響について, 2400以上の実験を行った。
論文参考訳（メタデータ） (2025-02-05T17:14:47Z)
Enhancing Commentary Strategies for Imperfect Information Card Games: A Study of Large Language Models in Guandan Commentary [5.1244906826828736]
強化学習(RL)と大規模言語モデル(LLM)を組み合わせた新しい注釈手法を提案する。本システムでは,RLを利用して複雑なカード再生シナリオを生成し,LLMを用いて対応する注釈文を生成する。オープンソース LLM に適用した場合,提案する注釈フレームワークによって達成される性能の大幅な向上を示す。
論文参考訳（メタデータ） (2024-06-23T11:58:26Z)
Exploring Design Choices for Building Language-Specific LLMs [36.32622880071991]
単言語モデルと多言語モデルを適用し,言語固有の言語モデルの構築について検討する。 LLMの初期性能は適応後の最終性能と必ずしも相関しないことがわかった。
論文参考訳（メタデータ） (2024-06-20T18:47:43Z)
Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文参考訳（メタデータ） (2024-03-21T13:47:40Z)
Large Language Models as Agents in Two-Player Games [12.303405412105187]
本稿では,大規模言語モデル(LLM)の学習手法と,2人プレイヤゲームにおけるエージェント開発戦略の並列性について述べる。本稿では,言語ゲームにおけるエージェント学習の観点から,LLM学習プロセスの再概念化を提案する。
論文参考訳（メタデータ） (2024-02-12T21:44:32Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文参考訳（メタデータ） (2023-10-31T14:37:42Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文参考訳（メタデータ） (2023-07-29T18:01:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。