論文の概要: Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue
- arxiv url: http://arxiv.org/abs/2210.04443v1
- Date: Mon, 10 Oct 2022 05:51:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:13:43.806196
- Title: Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue
- Title(参考訳): 教師をコピーしない: 身体的対話におけるデータとモデル課題
- Authors: So Yeon Min, Hao Zhu, Ruslan Salakhutdinov and Yonatan Bisk
- Abstract要約: 後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
- 参考スコア(独自算出の注目度): 92.01165203498299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied dialogue instruction following requires an agent to complete a
complex sequence of tasks from a natural language exchange. The recent
introduction of benchmarks (Padmakumar et al., 2022) raises the question of how
best to train and evaluate models for this multi-turn, multi-agent,
long-horizon task. This paper contributes to that conversation, by arguing that
imitation learning (IL) and related low-level metrics are actually misleading
and do not align with the goals of embodied dialogue research and may hinder
progress. We provide empirical comparisons of metrics, analysis of three
models, and make suggestions for how the field might best progress. First, we
observe that models trained with IL take spurious actions during evaluation.
Second, we find that existing models fail to ground query utterances, which are
essential for task completion. Third, we argue evaluation should focus on
higher-level semantic goals.
- Abstract(参考訳): 後続の対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
最近のベンチマーク(padmakumar et al., 2022)の導入は、このマルチターン、マルチエージェント、ロングホリゾンタスクのモデルのトレーニングと評価に最適な方法に関する疑問を提起している。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と整合せず,進歩を阻害する可能性があるとして,この会話に寄与する。
本稿では,メトリクスの実証的な比較,3つのモデルの解析,そしてフィールドがいかに最も進展するかを提案する。
まず、ilで訓練されたモデルが評価中にスプリアスな行動を取るのを観察します。
第2に,既存のモデルではクエリ発話のグラウンド化に失敗しており,これはタスク補完に不可欠である。
第三に、評価はより高いレベルの意味的目標に焦点を当てるべきである。
関連論文リスト
- Ranking Large Language Models without Ground Truth [24.751931637152524]
大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及に伴って重要な問題となっている。
我々は、プロンプトのデータセットが与えられた場合、根拠となる真実や参照応答にアクセスせずにそれらをランク付けする、新しい視点を提供する。
この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。
論文 参考訳(メタデータ) (2024-02-21T00:49:43Z) - Investigating the Efficacy of Large Language Models in Reflective
Assessment Methods through Chain of Thoughts Prompting [0.2552922646705803]
複雑な推論タスクにおけるLLMの習熟度を高める手段として、Chain of Thought(CoT)プロンプト法が提案されている。
本研究の主な目的は、4つの言語モデルが3年制医学生の振り返りエッセイをいかに評価できるかを評価することである。
論文 参考訳(メタデータ) (2023-09-30T06:25:27Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - DialogZoo: Large-Scale Dialog-Oriented Task Learning [52.18193690394549]
我々は,多種多様な対話課題を解くための統合基盤モデルの構築を目指している。
この目的を達成するために、73の公開データセットから、まず大規模なラベル付き対話データセットを収集する。
論文 参考訳(メタデータ) (2022-05-25T11:17:16Z) - WeaSuL: Weakly Supervised Dialogue Policy Learning: Reward Estimation
for Multi-turn Dialogue [17.663449579168297]
エージェントとユーザ(教師付き学習目標を持つエージェントに類似したモデル化)の対話をシミュレートし、相互に対話する。
エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。
2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、会話の成功につながることを示唆している。
論文 参考訳(メタデータ) (2021-08-01T08:00:45Z) - The Interplay of Task Success and Dialogue Quality: An in-depth
Evaluation in Task-Oriented Visual Dialogues [6.02280861819024]
一般的なエンドツーエンドアプローチでは、この選択はモデルが言語的に豊かな対話を生成するための学習を妨げることを示しています。
GuessWhatでは、トレーニングセットで頻繁に発生しない単語を接地、エンコード、デコードすることを学ぶと、モデルが精度を高めることができることを示しています。
論文 参考訳(メタデータ) (2021-03-20T10:13:30Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。