論文の概要: Language Model-In-The-Loop: Data Optimal Approach to Learn-To-Recommend
Actions in Text Games
- arxiv url: http://arxiv.org/abs/2311.07687v1
- Date: Mon, 13 Nov 2023 19:12:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 16:48:03.050431
- Title: Language Model-In-The-Loop: Data Optimal Approach to Learn-To-Recommend
Actions in Text Games
- Title(参考訳): 言語モデル・イン・ザ・ループ:テキストゲームにおける学習・推薦行動に対するデータ最適アプローチ
- Authors: Arjun Vaithilingam Sudhakar, Prasanna Parthasarathi, Janarthanan
Rajendran, Sarath Chandar
- Abstract要約: 大きな言語モデル(LLM)は、言語理解ベンチマークにおいて優れたパフォーマンスを示している。
LLMは、テキストゲームのパフォーマンスを改善するためのアクション候補レコメンデーションに、LDM -- GPT-2 -- の言語的先行性を活用する。
CalMは、注釈付き人間のゲームプレイでGPT-2を適応させ、テキストベースのゲームの学習中にLLMを固定し続ける。
- 参考スコア(独自算出の注目度): 16.281640651021434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated superior performance in
language understanding benchmarks. CALM, a popular approach, leverages
linguistic priors of LLMs -- GPT-2 -- for action candidate recommendations to
improve the performance in text games in Jericho without environment-provided
actions. However, CALM adapts GPT-2 with annotated human gameplays and keeps
the LLM fixed during the learning of the text based games. In this work, we
explore and evaluate updating LLM used for candidate recommendation during the
learning of the text based game as well to mitigate the reliance on the human
annotated gameplays, which are costly to acquire. We observe that by updating
the LLM during learning using carefully selected in-game transitions, we can
reduce the dependency on using human annotated game plays for fine-tuning the
LLMs. We conducted further analysis to study the transferability of the updated
LLMs and observed that transferring in-game trained models to other games did
not result in a consistent transfer.
- Abstract(参考訳): 大きな言語モデル(LLM)は、言語理解ベンチマークにおいて優れたパフォーマンスを示している。
一般的なアプローチであるCALMは、環境に配慮したアクションを伴わずにJerrichoのテキストゲームのパフォーマンスを改善するためのアクション候補レコメンデーションとして、LDMの言語的先行 -- GPT-2 -- を活用する。
しかし、CALMはGPT-2に注釈付きゲームプレイを適応させ、テキストベースのゲームの学習中にLCMを固定し続ける。
本研究は,テキストベースのゲーム学習における候補推薦に使用されるLSMの更新について検討・評価し,取得に要する注釈付きゲームプレイへの依存を軽減することを目的とする。
ゲーム内遷移を慎重に選択して学習中にLLMを更新することにより,LLMを微調整するために人間のアノテートゲームプレイによる依存を減らすことができる。
改良されたLLMの転送可能性についてさらなる分析を行い、ゲーム内トレーニングされたモデルを他のゲームに転送しても一貫した転送にはならないことを示した。
関連論文リスト
- Enhancing Commentary Strategies for Imperfect Information Card Games: A Study of Large Language Models in Guandan Commentary [5.1244906826828736]
強化学習(RL)と大規模言語モデル(LLM)を組み合わせた新しい注釈手法を提案する。
本システムでは,RLを利用して複雑なカード再生シナリオを生成し,LLMを用いて対応する注釈文を生成する。
オープンソース LLM に適用した場合,提案する注釈フレームワークによって達成される性能の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-06-23T11:58:26Z) - Exploring Design Choices for Building Language-Specific LLMs [36.32622880071991]
単言語モデルと多言語モデルを適用し,言語固有の言語モデルの構築について検討する。
LLMの初期性能は適応後の最終性能と必ずしも相関しないことがわかった。
論文 参考訳(メタデータ) (2024-06-20T18:47:43Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Large Language Models as Agents in Two-Player Games [12.303405412105187]
本稿では,大規模言語モデル(LLM)の学習手法と,2人プレイヤゲームにおけるエージェント開発戦略の並列性について述べる。
本稿では,言語ゲームにおけるエージェント学習の観点から,LLM学習プロセスの再概念化を提案する。
論文 参考訳(メタデータ) (2024-02-12T21:44:32Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Leveraging Word Guessing Games to Assess the Intelligence of Large
Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。
本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。
次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文 参考訳(メタデータ) (2023-10-31T14:37:42Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。