論文の概要: TIMEDIAL: Temporal Commonsense Reasoning in Dialog
- arxiv url: http://arxiv.org/abs/2106.04571v1
- Date: Tue, 8 Jun 2021 17:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 17:16:13.659022
- Title: TIMEDIAL: Temporal Commonsense Reasoning in Dialog
- Title(参考訳): timedial:temporal commonsense reasoning in dialog
- Authors: Lianhui Qin, Aditya Gupta, Shyam Upadhyay, Luheng He, Yejin Choi and
Manaal Faruqui
- Abstract要約: 本稿では,対話における時間的推論能力について,事前学習した言語モデルについて検討する。
我々は、TIME-DIALを1.1K以上の精巧なダイアログで複数選択のクローゼタスクとして定式化する。
実証的な結果は、最高のパフォーマンスモデルでさえ、人間よりもこのタスクに苦労していることを示している。
- 参考スコア(独自算出の注目度): 43.24596551545824
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Everyday conversations require understanding everyday events, which in turn,
requires understanding temporal commonsense concepts interwoven with those
events. Despite recent progress with massive pre-trained language models (LMs)
such as T5 and GPT-3, their capability of temporal reasoning in dialogs remains
largely under-explored. In this paper, we present the first study to
investigate pre-trained LMs for their temporal reasoning capabilities in
dialogs by introducing a new task and a crowd-sourced English challenge set,
TIMEDIAL. We formulate TIME-DIAL as a multiple-choice cloze task with over 1.1K
carefully curated dialogs. Empirical results demonstrate that even the best
performing models struggle on this task compared to humans, with 23 absolute
points of gap in accuracy. Furthermore, our analysis reveals that the models
fail to reason about dialog context correctly; instead, they rely on shallow
cues based on existing temporal patterns in context, motivating future research
for modeling temporal concepts in text and robust contextual reasoning about
them. The dataset is publicly available at:
https://github.com/google-research-datasets/timedial.
- Abstract(参考訳): 毎日の会話は日常的な出来事を理解することを必要とし、それによって、それらの出来事と交わる時間的常識の概念を理解する必要がある。
t5やgpt-3のような巨大な事前学習言語モデル(lms)による最近の進歩にもかかわらず、ダイアログにおける時間的推論の能力はほとんど未検討のままである。
本稿では,新しいタスクとクラウドソーシングされた英語チャレンジセットであるtimedialを導入することで,事前学習したlmsの対話における時間推論能力について初めて検討する。
我々は、TIME-DIALを1.1K以上の精巧なダイアログで複数選択のクローゼタスクとして定式化する。
実証的な結果は、最高のパフォーマンスモデルでさえ、正確性に23の絶対的なギャップがあるこのタスクに苦戦していることを示している。
さらに,これらのモデルがコンテキスト内の既存の時間的パターンに基づく浅い手がかりに依存しており,テキストにおける時間的概念のモデル化と,それに対する堅牢な文脈的推論に関する今後の研究の動機となっている。
データセットは、https://github.com/google-research-datasets/timedial.comで公開されている。
関連論文リスト
- Language Models Still Struggle to Zero-shot Reason about Time Series [11.764833497297493]
時系列は金融や医療といった分野における意思決定に不可欠だ。
非自明な予測が言語モデルが時系列について推論できることを示すかどうかは不明である。
時系列推論のための一級評価フレームワークを生成する。
論文 参考訳(メタデータ) (2024-04-17T21:27:33Z) - Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。
我々は、各エージェントに画像の共有と反応の能力を持たせる。
生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文 参考訳(メタデータ) (2024-02-27T18:42:31Z) - Mind the Gap Between Conversations for Improved Long-Term Dialogue
Generation [21.109006148673846]
GapChatは、セッション間の時間が異なるマルチセッション対話データセットである。
データセットはリアルタイムに構築されているが、話者の生活における出来事の進行をシミュレートして、長い時間間隔で発生する現実的な対話を生成する。
時間認識モデルは、選択したトピックと会話から得られる情報との関係を判断する指標において、より良いパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-10-24T00:12:38Z) - Conversation Chronicles: Towards Diverse Temporal and Relational
Dynamics in Multi-Session Conversations [9.249662593315541]
我々は,長期会話設定を実装するために,新たに100万件の多セッション対話データセットであるConversation Chroniclesを導入する。
会話年代記の対話エピソードは、一貫性と一貫した相互作用を維持しながら、それらの特性を反映していることを示す。
また、時系列要約と対話生成モジュールで構成されるReBotと呼ばれる対話モデルを提案する。
論文 参考訳(メタデータ) (2023-10-20T11:06:21Z) - An Overview Of Temporal Commonsense Reasoning and Acquisition [20.108317515225504]
時間的コモンセンス推論(英: Temporal Commonsense reasoning)とは、フレーズ、行動、出来事の典型的な時間的文脈を理解する能力である。
大規模言語モデルの性能に関する最近の研究は、しばしば推論においてショートカットを行い、単純な言語トラップに陥ることが示唆されている。
論文 参考訳(メタデータ) (2023-07-28T01:30:15Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - ChatGPT Evaluation on Sentence Level Relations: A Focus on Temporal,
Causal, and Discourse Relations [52.26802326949116]
対話型大規模言語モデルChatGPTの性能を,文間関係に基づいて定量的に評価する。
ChatGPTは因果関係の検出と推論において極めて優れた能力を示す。
既存の明示的な談話接続物との談話関係の大多数を特定できるが、暗黙的な談話関係は依然として恐ろしい課題である。
論文 参考訳(メタデータ) (2023-04-28T13:14:36Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - OPAL: Ontology-Aware Pretrained Language Model for End-to-End
Task-Oriented Dialogue [40.62090743056549]
本稿では、エンドツーエンドタスク指向対話(TOD)のためのオントロジー対応事前学習言語モデル(OPAL)を提案する。
チャット型対話モデルとは異なり、タスク指向対話モデルは少なくとも2つのタスク固有モジュールを満たす:対話状態トラッカー(DST)と応答生成器(RG)。
論文 参考訳(メタデータ) (2022-09-10T04:38:27Z) - In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。
大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。
これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文 参考訳(メタデータ) (2022-03-16T11:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。