論文の概要: Playpen: An Environment for Exploring Learning Through Conversational Interaction
- arxiv url: http://arxiv.org/abs/2504.08590v1
- Date: Fri, 11 Apr 2025 14:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:19:13.996094
- Title: Playpen: An Environment for Exploring Learning Through Conversational Interaction
- Title(参考訳): Playpen:会話による学習を探求する環境
- Authors: Nicola Horst, Davide Mazzaccara, Antonia Schmidt, Michael Sullivan, Filippo Momentè, Luca Franceschetti, Philipp Sadler, Sherzod Hakimov, Alberto Testoni, Raffaella Bernardi, Raquel Fernández, Alexander Koller, Oliver Lemon, David Schlangen, Mario Giulianelli, Alessandro Suglia,
- Abstract要約: ダイアログゲーム(Dialogue Games)と呼ばれる、人工的なインタラクションが、学習シグナルを提供することができるかを考察する。
このデータに対する教師付き微調整の効果について検討する。
我々は、この有望な新しい方向性の研究を促進することを期待して、フレームワークとベースライントレーニングのセットアップをリリースします。
- 参考スコア(独自算出の注目度): 81.67330926729015
- License:
- Abstract: Are we running out of learning signal? Predicting the next word in an existing text has turned out to be a powerful signal, at least at scale. But there are signs that we are running out of this resource. In recent months, interaction between learner and feedback-giver has come into focus, both for "alignment" (with a reward model judging the quality of instruction following attempts) and for improving "reasoning" (process- and outcome-based verifiers judging reasoning steps). In this paper, we explore to what extent synthetic interaction in what we call Dialogue Games -- goal-directed and rule-governed activities driven predominantly by verbal actions -- can provide a learning signal, and how this signal can be used. We introduce an environment for producing such interaction data (with the help of a Large Language Model as counterpart to the learner model), both offline and online. We investigate the effects of supervised fine-tuning on this data, as well as reinforcement learning setups such as DPO, and GRPO; showing that all of these approaches achieve some improvements in in-domain games, but only GRPO demonstrates the ability to generalise to out-of-domain games as well as retain competitive performance in reference-based tasks. We release the framework and the baseline training setups in the hope that this can foster research in this promising new direction.
- Abstract(参考訳): 学習信号が切れていますか?
既存のテキストで次の単語を予測することは、少なくとも規模では、強力な信号であることが判明した。
しかし、このリソースを使い果たしている兆候があります。
近年,学習者とフィードバックギバーの相互作用が注目され,「調整」と「推論」と「推論」の改善(推論ステップを判断するプロセスと結果に基づく検証)の両方が注目されている。
本稿では,ダイアログゲーム (目標指向とルール支配のアクティビティ) が,主に言語行動によって駆動される) において,どの程度の合成相互作用が学習信号を提供するのか,また,どのようにしてこの信号を使用することができるのかを考察する。
我々は,このようなインタラクションデータを生成する環境(学習者モデルに対抗して,大規模言語モデルの助けを借りて)をオフラインとオンラインの両方で導入する。
DPO や GRPO などの強化学習機構と同様に,教師付き微調整がデータに与える影響について検討し,これらの手法がドメイン内ゲームにおいていくつかの改善を達成していることを示すが,参照ベースタスクにおける競争性能を維持しつつ,ドメイン外ゲームに一般化できる能力を示したのはGRPO のみである。
この将来有望な新しい方向性の研究を促進することを願って、フレームワークとベースライントレーニングのセットアップをリリースします。
関連論文リスト
- Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - clembench-2024: A Challenging, Dynamic, Complementary, Multilingual Benchmark and Underlying Flexible Framework for LLMs as Multi-Action Agents [19.989503513817095]
大きな言語モデルは、特定の能力を探索する会話ゲームに"セルフプレイ"するよう促すことができる。
本稿では,このようなゲームプレイ環境を構築するためのフレームワークの1つを取り上げ,その有効性を評価機器として検証する。
論文 参考訳(メタデータ) (2024-05-31T14:43:31Z) - Yes, this Way! Learning to Ground Referring Expressions into Actions
with Intra-episodic Feedback from Supportive Teachers [15.211628096103475]
本研究は,協調的な環境下でのエポゾディック内フィードバックを評価するための最初の研究である。
以上の結果から,エポゾディック内フィードバックにより,参加者はシーンの複雑さの側面を一般化できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T10:01:15Z) - RLIP: Relational Language-Image Pre-training for Human-Object
Interaction Detection [32.20132357830726]
言語画像事前学習(Language- Image Pre-Training、LIPR)は、エンティティと関係記述の両方を活用するコントラスト事前学習の戦略である。
RLIP-ParSeと呼ばれるこれらのコントリビューションの利点は、ゼロショット、少数ショット、微調整のHOI検出の改善、およびノイズアノテーションからの堅牢性の向上である。
論文 参考訳(メタデータ) (2022-09-05T07:50:54Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。