論文の概要: Learning Manner of Execution from Partial Corrections
- arxiv url: http://arxiv.org/abs/2302.03338v1
- Date: Tue, 7 Feb 2023 09:25:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 17:01:42.301850
- Title: Learning Manner of Execution from Partial Corrections
- Title(参考訳): 部分的補正による実行マンナの学習
- Authors: Mattias Appelgren, Alex Lascarides
- Abstract要約: エージェントがどのコンテキストで使用するアクションの実行方法を学ぶモデルを示す。
学習者は、教師のフィードバックの言葉によって示される概念を欠いたドメインモデルから始める。
我々は,コヒーレンスのセマンティクスを通じて,教師のフィードバックの活用に必要なシンボルグラウンドを行うことができることを示す。
- 参考スコア(独自算出の注目度): 2.6841565801416767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Some actions must be executed in different ways depending on the context. For
example, wiping away marker requires vigorous force while wiping away almonds
requires more gentle force. In this paper we provide a model where an agent
learns which manner of action execution to use in which context, drawing on
evidence from trial and error and verbal corrections when it makes a mistake
(e.g., ``no, gently''). The learner starts out with a domain model that lacks
the concepts denoted by the words in the teacher's feedback; both the words
describing the context (e.g., marker) and the adverbs like ``gently''. We show
that through the the semantics of coherence, our agent can perform the symbol
grounding that's necessary for exploiting the teacher's feedback so as to solve
its domain-level planning problem: to perform its actions in the current
context in the right way.
- Abstract(参考訳): いくつかのアクションは、コンテキストによって異なる方法で実行されなければならない。
例えば、マーカーを拭くには活力が必要ですが、アーモンドを拭くにはもっと穏やかな力が必要です。
本稿では, エージェントがどのような状況でどのような行動を実行するかを学習し, 試行錯誤による証拠を抽出し, 誤りを犯したときの言葉による訂正を行うモデルを提案する(例: ``no, gently'')。
学習者は、教師のフィードバックの言葉によって示される概念が欠けているドメインモデルから始める。
我々は,コヒーレンスのセマンティクスを通じて,教師のフィードバックを生かし,そのドメインレベルの計画問題の解決に必要なシンボルを,適切な方法で実行することができることを示す。
関連論文リスト
- On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - SECURE: Semantics-aware Embodied Conversation under Unawareness for Lifelong Robot Learning [17.125080112897102]
SECUREはこのような問題を解決するために設計された対話型タスク学習フレームワークである。
具体的会話を使って、その欠陥のあるドメインモデルを修正します。
エージェントが意味論的に認識されている場合、無意識で再配置を解決する学習がより効率的であることを示す。
論文 参考訳(メタデータ) (2024-09-26T11:40:07Z) - Fine-grained Controllable Text Generation through In-context Learning with Feedback [57.396980277089135]
本稿では,依存度などの非自明な言語的特徴の特定の値に一致させるために,入力文を書き換える手法を提案する。
従来の研究とは対照的に、本手法は微調整ではなく文脈内学習を用いており、データが少ないユースケースに適用できる。
論文 参考訳(メタデータ) (2024-06-17T08:55:48Z) - LACMA: Language-Aligning Contrastive Learning with Meta-Actions for
Embodied Instruction Following [142.25438780561603]
本稿では,メタアクションの概念を導入し,言語命令とエージェントのアクション空間間の意味的ギャップを埋める。
強力なマルチモーダルトランスフォーマーベースラインと比較して、目に見えない環境での絶対的な成功率は4.5%に達する。
論文 参考訳(メタデータ) (2023-10-18T21:43:07Z) - Conjunct Resolution in the Face of Verbal Omissions [51.220650412095665]
本稿では,テキスト上で直接動作する接続分解タスクを提案し,コーディネーション構造に欠けている要素を復元するために,分割・言い換えパラダイムを利用する。
クラウドソースアノテーションによる自然に発生する動詞の省略例を10万件以上を含む,大規模なデータセットをキュレートする。
我々は、このタスクのために様々な神経ベースラインをトレーニングし、最良の手法が適切なパフォーマンスを得る一方で、改善のための十分なスペースを残していることを示す。
論文 参考訳(メタデータ) (2023-05-26T08:44:02Z) - Honest Students from Untrusted Teachers: Learning an Interpretable Question-Answering Pipeline from a Pretrained Language Model [18.857225397137686]
我々は,emphmarkup-and-maskと呼ばれるオープンブック質問応答のための新しい方法を提案する。
マークアップフェーズでは、節は自由テキストのマークアップで拡張され、各文は談話コンテキストの外側で独立して立つことができる。
教師として機能する凍結した事前学習言語モデルに一連のプロンプトを送信することで,銀アノテートデータを生成する。
正解を導いた合理性のサブセットをトレーニングすることで、より小さな学生モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-05T18:23:49Z) - Overcoming Referential Ambiguity in Language-Guided Goal-Conditioned
Reinforcement Learning [8.715518445626826]
学習者は、指示が対象の特徴を明瞭に参照した場合、教師の意図を誤解することができる。
認知科学から派生した2つの概念が、それらの参照あいまいさを解決するのにどのように役立つかを研究する。
これらのアイデアを、シミュレーションロボットタスクに2つの人工エージェントを組み込んだ教師/学習者の設定に適用する。
論文 参考訳(メタデータ) (2022-09-26T15:07:59Z) - GSRFormer: Grounded Situation Recognition Transformer with Alternate
Semantic Attention Refinement [73.73599110214828]
グラウンドドコンディション認識(GSR)は、人間のイベント理解のための画像の構造化されたセマンティックサマリーを生成することを目的としている。
オブジェクト検出とイメージキャプションタスクにインスパイアされた既存のメソッドは、2段階のフレームワークを使用するのが一般的である。
本稿では,動詞と役割の双方向関係の活用に焦点をあてた,新しい2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-18T17:13:59Z) - Do Trajectories Encode Verb Meaning? [22.409307683247967]
接地言語モデルは、名詞や形容詞などの具体的なカテゴリーを、画像やビデオを通じて世界に接続することを学ぶ。
本稿では,対象物の位置と回転が自然に意味論的にエンコードされる範囲について検討する。
トラジェクトリはいくつかの動詞(例えば転落)と相関し、自己教師付き事前学習による追加抽象は、動詞の意味のニュアンス的な違いをさらに捉えることができる。
論文 参考訳(メタデータ) (2022-06-23T19:57:16Z) - How Do You Do It? Fine-Grained Action Understanding with Pseudo-Adverbs [52.042261549764326]
そこで本研究では,様々な行動にまたがる副詞を認識する手法を提案する。
提案手法は,複数の副詞の擬似ラベルを用いた半教師付き学習を用いる。
また、副詞がきめ細かな行動とどのように関連しているかを示す。
論文 参考訳(メタデータ) (2022-03-23T11:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。