論文の概要: Yes, this Way! Learning to Ground Referring Expressions into Actions
with Intra-episodic Feedback from Supportive Teachers
- arxiv url: http://arxiv.org/abs/2305.12880v1
- Date: Mon, 22 May 2023 10:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 17:01:33.624702
- Title: Yes, this Way! Learning to Ground Referring Expressions into Actions
with Intra-episodic Feedback from Supportive Teachers
- Title(参考訳): はい、こちらです!
支援教師からの感情内フィードバックによる行動への参照表現の学習
- Authors: Philipp Sadler, Sherzod Hakimov and David Schlangen
- Abstract要約: 本研究は,協調的な環境下でのエポゾディック内フィードバックを評価するための最初の研究である。
以上の結果から,エポゾディック内フィードバックにより,参加者はシーンの複雑さの側面を一般化できることがわかった。
- 参考スコア(独自算出の注目度): 15.211628096103475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to pick up on language signals in an ongoing interaction is
crucial for future machine learning models to collaborate and interact with
humans naturally. In this paper, we present an initial study that evaluates
intra-episodic feedback given in a collaborative setting. We use a referential
language game as a controllable example of a task-oriented collaborative joint
activity. A teacher utters a referring expression generated by a well-known
symbolic algorithm (the "Incremental Algorithm") as an initial instruction and
then monitors the follower's actions to possibly intervene with intra-episodic
feedback (which does not explicitly have to be requested). We frame this task
as a reinforcement learning problem with sparse rewards and learn a follower
policy for a heuristic teacher. Our results show that intra-episodic feedback
allows the follower to generalize on aspects of scene complexity and performs
better than providing only the initial statement.
- Abstract(参考訳): 将来的な機械学習モデルが自然に人間と協力し対話するためには、現在進行中のインタラクションで言語信号を拾う能力が不可欠である。
本稿では,協調的な環境下でのエポゾディック内フィードバックを評価するための最初の研究について述べる。
タスク指向協調行動の制御可能な例として,レファレンス言語ゲームを用いた。
教師は、よく知られたシンボリックアルゴリズム(「インクリメンタルアルゴリズム」)によって生成された参照表現を初期命令として発し、その後、フォロワーのアクションを監視して、おそらくは(明示的に要求される必要はない)エピソドック内フィードバックに介入する。
我々は,この課題を,まばらな報酬を伴う強化学習問題とみなし,ヒューリスティックな教師のフォロワー政策を学習する。
以上の結果から,イントラ・エポソードフィードバックは,シーンの複雑さの側面を一般化し,最初のステートメントのみを提供するよりも優れたパフォーマンスを示す。
関連論文リスト
- On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Prosody as a Teaching Signal for Agent Learning: Exploratory Studies and Algorithmic Implications [2.8243597585456017]
本稿では,人間教師からのエージェント学習を強化するための教示信号として,韻律の統合を提唱する。
その結果,明示的なフィードバックと組み合わせることで,韻律的特徴が強化学習効果を高めることが示唆された。
論文 参考訳(メタデータ) (2024-10-31T01:51:23Z) - YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - PapagAI:Automated Feedback for Reflective Essays [48.4434976446053]
ドクティック理論をベースとして,ハイブリッドAIシステムとして実装された,初のオープンソース自動フィードバックツールを提案する。
本研究の主な目的は,学生の学習成果の向上と,講師の指導活動を補完することである。
論文 参考訳(メタデータ) (2023-07-10T11:05:51Z) - "You might think about slightly revising the title": identifying hedges
in peer-tutoring interactions [1.0466434989449724]
ヘッジは会話の相互作用の管理において重要な役割を果たす。
我々は、ヘッジを特定するための計算フレームワークを構築するために、マルチモーダルなピアチューニングデータセットを使用する。
我々は、ピアチューニング会話でヘッジを特徴付ける特徴を探索するために、モデル説明可能性ツールを使用します。
論文 参考訳(メタデータ) (2023-06-18T12:47:54Z) - Learning Intuitive Policies Using Action Features [7.260481131198059]
ネットワークアーキテクチャが意味的関係を利用する学習アルゴリズムの妥当性に与える影響について検討する。
観察と行動の卓越した表現を共同で処理する注意に基づくアーキテクチャは、直感的なポリシーを学ぶ上でより良い帰納的バイアスをもたらす。
論文 参考訳(メタデータ) (2022-01-29T20:54:52Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Interaction-Grounded Learning [24.472306647094253]
そこで我々は,学習者の目的が環境と対話することであり,その政策を最適化するために,根拠や明確な報酬を伴わない「インタラクション・グラウンド・ラーニング」を提案する。
そこで本研究では,ある自然な仮定を前提とした対話型学習環境において,学習者が潜在報酬を発見でき,対話を成功させるための政策を立案できることを示す。
論文 参考訳(メタデータ) (2021-06-09T08:13:29Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z) - Learning Rewards from Linguistic Feedback [30.30912759796109]
人工エージェントの学習信号として,制約のない自然言語フィードバックを探索する。
感情に基づく「リテラル」と「実用的」の3つのモデルと、潜在報酬を予測するためにエンドツーエンドにトレーニングされた推論ネットワークを実装した。
論文 参考訳(メタデータ) (2020-09-30T14:51:00Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。