論文の概要: Learning Manner of Execution from Partial Corrections
- arxiv url: http://arxiv.org/abs/2302.03338v1
- Date: Tue, 7 Feb 2023 09:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 17:01:42.301850
- Title: Learning Manner of Execution from Partial Corrections
- Title(参考訳): 部分的補正による実行マンナの学習
- Authors: Mattias Appelgren, Alex Lascarides
- Abstract要約: エージェントがどのコンテキストで使用するアクションの実行方法を学ぶモデルを示す。
学習者は、教師のフィードバックの言葉によって示される概念を欠いたドメインモデルから始める。
我々は,コヒーレンスのセマンティクスを通じて,教師のフィードバックの活用に必要なシンボルグラウンドを行うことができることを示す。
- 参考スコア(独自算出の注目度): 2.6841565801416767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Some actions must be executed in different ways depending on the context. For
example, wiping away marker requires vigorous force while wiping away almonds
requires more gentle force. In this paper we provide a model where an agent
learns which manner of action execution to use in which context, drawing on
evidence from trial and error and verbal corrections when it makes a mistake
(e.g., ``no, gently''). The learner starts out with a domain model that lacks
the concepts denoted by the words in the teacher's feedback; both the words
describing the context (e.g., marker) and the adverbs like ``gently''. We show
that through the the semantics of coherence, our agent can perform the symbol
grounding that's necessary for exploiting the teacher's feedback so as to solve
its domain-level planning problem: to perform its actions in the current
context in the right way.
- Abstract(参考訳): いくつかのアクションは、コンテキストによって異なる方法で実行されなければならない。
例えば、マーカーを拭くには活力が必要ですが、アーモンドを拭くにはもっと穏やかな力が必要です。
本稿では, エージェントがどのような状況でどのような行動を実行するかを学習し, 試行錯誤による証拠を抽出し, 誤りを犯したときの言葉による訂正を行うモデルを提案する(例: ``no, gently'')。
学習者は、教師のフィードバックの言葉によって示される概念が欠けているドメインモデルから始める。
我々は,コヒーレンスのセマンティクスを通じて,教師のフィードバックを生かし,そのドメインレベルの計画問題の解決に必要なシンボルを,適切な方法で実行することができることを示す。
関連論文リスト
- LACMA: Language-Aligning Contrastive Learning with Meta-Actions for
Embodied Instruction Following [142.25438780561603]
本稿では,メタアクションの概念を導入し,言語命令とエージェントのアクション空間間の意味的ギャップを埋める。
強力なマルチモーダルトランスフォーマーベースラインと比較して、目に見えない環境での絶対的な成功率は4.5%に達する。
論文 参考訳(メタデータ) (2023-10-18T21:43:07Z) - Conjunct Resolution in the Face of Verbal Omissions [51.220650412095665]
本稿では,テキスト上で直接動作する接続分解タスクを提案し,コーディネーション構造に欠けている要素を復元するために,分割・言い換えパラダイムを利用する。
クラウドソースアノテーションによる自然に発生する動詞の省略例を10万件以上を含む,大規模なデータセットをキュレートする。
我々は、このタスクのために様々な神経ベースラインをトレーニングし、最良の手法が適切なパフォーマンスを得る一方で、改善のための十分なスペースを残していることを示す。
論文 参考訳(メタデータ) (2023-05-26T08:44:02Z) - Honest Students from Untrusted Teachers: Learning an Interpretable
Question-Answering Pipeline from a Pretrained Language Model [25.091068473676337]
我々は,emphmarkup-and-maskと呼ばれるオープンブック質問応答のための新しい方法を提案する。
マークアップフェーズでは、節は自由テキストのマークアップで拡張され、各文は談話コンテキストの外側で独立して立つことができる。
教師として機能する凍結した事前学習言語モデルに一連のプロンプトを送信することで,銀アノテートデータを生成する。
正解を導いた合理性のサブセットをトレーニングすることで、より小さな学生モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-05T18:23:49Z) - Overcoming Referential Ambiguity in Language-Guided Goal-Conditioned
Reinforcement Learning [8.715518445626826]
学習者は、指示が対象の特徴を明瞭に参照した場合、教師の意図を誤解することができる。
認知科学から派生した2つの概念が、それらの参照あいまいさを解決するのにどのように役立つかを研究する。
これらのアイデアを、シミュレーションロボットタスクに2つの人工エージェントを組み込んだ教師/学習者の設定に適用する。
論文 参考訳(メタデータ) (2022-09-26T15:07:59Z) - GSRFormer: Grounded Situation Recognition Transformer with Alternate
Semantic Attention Refinement [73.73599110214828]
グラウンドドコンディション認識(GSR)は、人間のイベント理解のための画像の構造化されたセマンティックサマリーを生成することを目的としている。
オブジェクト検出とイメージキャプションタスクにインスパイアされた既存のメソッドは、2段階のフレームワークを使用するのが一般的である。
本稿では,動詞と役割の双方向関係の活用に焦点をあてた,新しい2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-18T17:13:59Z) - Do Trajectories Encode Verb Meaning? [22.409307683247967]
接地言語モデルは、名詞や形容詞などの具体的なカテゴリーを、画像やビデオを通じて世界に接続することを学ぶ。
本稿では,対象物の位置と回転が自然に意味論的にエンコードされる範囲について検討する。
トラジェクトリはいくつかの動詞(例えば転落)と相関し、自己教師付き事前学習による追加抽象は、動詞の意味のニュアンス的な違いをさらに捉えることができる。
論文 参考訳(メタデータ) (2022-06-23T19:57:16Z) - How Do You Do It? Fine-Grained Action Understanding with Pseudo-Adverbs [52.042261549764326]
そこで本研究では,様々な行動にまたがる副詞を認識する手法を提案する。
提案手法は,複数の副詞の擬似ラベルを用いた半教師付き学習を用いる。
また、副詞がきめ細かな行動とどのように関連しているかを示す。
論文 参考訳(メタデータ) (2022-03-23T11:53:41Z) - Controlled Neural Sentence-Level Reframing of News Articles [40.802766338425926]
我々は,文脈に整合性を保ちながら,ニュース記事中の文を計算的に再構成する方法を研究する。
本稿では,フレーム付き言語保存事前学習,名義学習,対人学習の3つの戦略を提案する。
結果から,適切なフレームのテキストを生成することは,トレードオフよりも有効であることが示唆された。
論文 参考訳(メタデータ) (2021-09-10T15:57:24Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Generating Dialogue Responses from a Semantic Latent Space [75.18449428414736]
語彙のエンドツーエンド分類に代わる方法を提案する。
潜在空間上の回帰タスクとして,プロンプトと応答のペア関係を学習する。
人間の評価は、連続した空間でタスクを学習すると、関連性と情報性の両方を持つ応答が生成されることを示した。
論文 参考訳(メタデータ) (2020-10-04T19:06:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。